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Préface 
Les normes au service de la terminologie 
numérique 


Ce livre intitulé « Terminologie numérique : conception, représentation 
et gestion » est innovateur dans sa conception et dans son but. Cela 
le rend indispensable pour tout terminologue provenant des sciences 
sociales et humaines dont l’objectif est de s’aventurer dans l’une des 
facettes du travail terminologique consistant à créer, à gérer et à mettre 
à jour des ressources terminologiques. Ces dernières sont des conte- 
neurs de données terminologiques collectées de façon systématique 
d’après des principes théoriques et méthodologiques de la science de 
la terminologie. 

Le terminologue d'aujourd'hui opère nécessairement dans le 
numérique, d’où l'importance qu'assume son activité dés lors qu'il 
s'agit de partager les données sur lesquelles il travaille. Ces données 
doivent étre interchangeables et interopérables pour correspondre aux 
politiques scientifiques qui visent à accélérer le développement vers la 
Science Ouverte. C'est dans cet esprit que Federica Vezzani se propose 
d'implémenter les principes FAIR (Faciles à trouver, Accessibles, Inte- 
ropérables et Réutilisables) à la conception et la construction des res- 
sources terminologiques selon trois normes élaborées au sein de l'ISO 
SC3, CT 37 : 


i. ISO-16642 : 2017 — Applications informatiques en terminolo- 
gie — Plate-forme pour le balisage de terminologies informa- 
tisées ; 

ii. ISO-12620 : 2019 — Gestion des ressources terminologiques — 
Spécifications des catégories de données ; 

iii. 1SO-30042 : 2019 — Gestion des ressources terminologiques — 
TermBase eXchange (TBX). 


Ces trois documents fournissent les lignes directrices et les exigences 
nécessaires pour structurer et représenter les données afin de permettre 
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l'interchangeabilité et leur réutilisation. Le défi majeur du travail ter- 
minologique est bel et bien la possibilité de réutiliser les données qui se 
doivent accompagnées de descriptions standardisées. 

À ce stade Federica Vezzani, rejoignant la tendance de la Science 
Ouverte, propose un nouveau paradigme qu’elle désigne de « termino- 
logie FAIR », où elle dessine une méthodologie innovatrice qui associe 
les principes FAIR aux principes de gestion de la terminologie repré- 
sentés dans les normes ISO supra mentionnées. 

Finalement, l'auteure de l'ouvrage applique son paradigme à une 
ressource terminologique médicale polyvalente — TriMED — qui se 
dirige à des publics qui ont des besoins de communication spécifiques 
dans des contextes médicaux — patients, médecins, traducteurs. Du 
point de vue de sa structure, la fiche terminologique de TriMED cor- 
respond aux requis normalisateurs. Du point de vue du contenu, on 
peut y trouver une quantité diverse d'informations concernant le com- 
portement linguistique des termes et du vocabulaire spécialisé. Enfin, 
une application Web est construite qui permet la consultation, mais 
aussi la réutilisation des données terminologiques multilingues. 

La perspective théorique et l'approche méthodologique de l'au- 
teure de l'ouvrage sont ancrées dans une terminologie à dimension 
conceptuelle et linguistique dont les principes se reflètent dans l'usage 
qu'elle fait des normes et dans le dessin de Tri MED. L'approche de 
Federica Vezzani se veut multidisciplinaire et appelle au besoin de 
constituer des équipes mixtes pour mener à bon terme un travail ter- 
minologique qui actuellement est nécessairement numérique. Ce livre 
a le grand mérite d'assumer un point de vue qui l'accompagne l'au- 
teure au fil des pages. 

Dans le chapitre premier « Numérisation de la terminologie », l'au- 
teure fait une approche historique au concept de « numérique » dans 
le contexte du travail terminologique, ce qui l'améne à reprendre des 
termes comme « terminographie », « terminotique » et « terminologie 
computationnelle » en faisant une incursion aux spécificités de chacune 
de ces approches. Elle passe ensuite aux questions actuelles concernant 
le numérique en s'attardant sur l’avènement du Web sémantique e du 
Linked Open Data (LOD). 

Avec le deuxième chapitre intitulé « Fondements pour une termino- 
logie numérique », Federica Vezzani fait le tour des théories, selon elle 
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les plus proéminentes, ainsi que de diverses approches appliquées au 
travail terminologique où elle déclare sa préférence pour une approche 
à la terminologie qui est bidimensionnelle et qui prend tout sens, vue la 
place accordée aux normes ISO dans son étude. 

Le troisième chapitre est consacré à la « Conception d’une res- 
source terminologique » où l’auteure élabore la proposition d’une 
« terminologie FAIR », ce qui l'induit à décrire deux des normes, à 
savoir, l'ISO-16642 : 2017 qui permet la modélisation et l'organisation 
des entités « concept », « terme » et « langue » (au sens que la norme 
leurs donne) et 'ISO-12620 : 2019 qui, à son tour, permet de représen- 
ter et d'harmoniser les propriétés (catégories de données) choisies pour 
chaque entité. 

La troisiéme norme ISO évoquée supra est traitée dans le qua- 
trième chapitre intitulé « Vers l'implémentation d'une ressource ter- 
minologique ». Ici, Federica Vezzani se concentre sur le format de 
représentation TermBase eXchange (TBX) (ISO-30042, 2019) qu'elle 
considère être le modèle à suivre pour l'adoption d'une approche FAIR 
à la terminologie. Elle termine ce chapitre, en proposant des pistes de 
réflexion sur la mise à jour et la publication des données terminolo- 
giques contenues dans une ressource FAIR. 

Lx Étude de cas : la ressource TriMED » est décrite dans le cin- 
quième chapitre et concerne la conception et la mise en œuvre de la 
base de données TriMED. C'est dans ce chapitre que l'auteure explique 
toutes les spécificités détaillées de la ressource Tri MED dont le but est 
de démontrer que la méthodologie utilisée est réplicable à tout autre 
domaine. Le détail de spécificité du dessin de la ressource fait de ce 
chapitre un texte trés didactique qui pourra trés facilement se transfor- 
mer en un guide pour tout novice de la terminologie numérique. 

Le sixième chapitre dont le titre est « Is it FAIR enough? » nous 
renvoie à une sorte de palimpseste construit sur un jeu de mots pro- 
vocateur. Ce chapitre est une réflexion critique aux aspects de la FAI- 
Risation. L'auteur considére que la démarche dessinée est un bon 
point de départ pour aller plus loin, car la méthodologie proposée doit 
étre mise à jour et constitue le levier pour d'autres envols tenant en 
compte d'autres normes tels que RDF ou Ontolex-Lemon (une norme 
de facto) — rien que pour en nommer quelques-unes — pour avancer vers 
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Pinteropérabilité entendue comme la capacité que les systèmes exis- 
tants ou à créer ont à s’adapter et à interagir entre eux. 

Rute Costa 

Faculdade de Ciências Sociais e Humanas 

Universidade NOVA de Lisboa 

NOVA CLUNL, Lisbonne 


Introduction 


Cet ouvrage se consacre à la question de l’évolution de la discipline de 
la terminologie à l’ère numérique. La terminologie est la science qui 
traite de l’étude et de la représentation des connaissances spécialisées 
et, à ce titre, englobe une double dimension d’analyse, conceptuelle et 
linguistique, qui caractérise le spectre d’investigation du chercheur. 
La complémentarité des deux dimensions permet, en effet, d'examiner, 
d’une part, les conceptualisations d’un domaine de travail donné, d’autre 
part, les représentations linguistiques (termes) qui concrétisent verbale- 
ment les concepts spécialisés étudiés. Le travail du terminologue vise 
donc à maximiser et à mettre en corrélation les deux dimensions de la 
terminologie à la fois dans une perspective monolingue et multilingue. 

La création de ressources terminologiques contenant la termino- 
logie d’un secteur spécialisé est l’une des principales activités de cette 
discipline. Ces outils, s’ils sont partagés à grande échelle, constituent 
un patrimoine inestimable pour l'avancement de la recherche, non seu- 
lement dans le domaine strictement linguistique, mais aussi pour des 
secteurs plus ou moins voisins tels que l'informatique, le traitement 
automatique des langues, la recherche de l’information. Or, la mise à 
disposition d’une ressource terminologique numérique sur le Web est 
une activité qui nécessite une étude de conception préalable approfon- 
die. Le processus de numérisation du matériel terminologique implique 
donc de repenser la structure des données, des métadonnées et des 
collections que l’on veut représenter afin qu’elles soient organisées et 
gérées de manière optimale sur le Web. Faire de la terminologie à l’ère 
du numérique signifie prendre en considération tous les aspects qui 
permettent au chercheur de conformer et de modéliser son produit par 
rapport aux exigences actuelles en termes de bonne gestion des don- 
nées numériques. 

Les raisons qui sous-tendent cet ouvrage s'inscrivent dans ce 
contexte. En particulier, notre premier objectif est d'illustrer les étapes 
de conception et de mise en œuvre d'une base de données terminolo- 
giques numérisée. Reprenant les lignes directrices promues au niveau 
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européen pour soutenir la trouvabilité, l’accessibilité, l’interopérabi- 
lité et la réutilisabilité (FAIR principles) des données de la recherche, 
nous proposons le paradigme de la « terminologie FAIR » comme une 
succession de processus afin de modéliser et de rendre disponible une 
ressource terminologique structurée conformément aux normes ISO 
actuelles en matière de gestion de la terminologie. 

En parallèle, le deuxième objectif de ce travail porte sur la volonté 
de valoriser les compétences du terminologue numérique. Dans cette 
perspective, nous entendons souligner la forte composante interdisci- 
plinaire qui caractérise cette figure. Cependant, il faut noter que l'in- 
terdisciplinarité évoquée n'est pas congue comme la caractéristique 
de savoir maitriser à la perfection différentes disciplines, mais plutót 
comme la capacité de savoir dialoguer et collaborer en synergie avec 
des experts d'autres disciplines. Et c'est précisément à partir de l'ouver- 
ture vers d'autres champs de recherche que la terminologie prend une 
nouvelle forme et entraine le développement de compétences de pensée 
numérique afin de modéliser conceptuellement et structurer correcte- 
ment le résultat de la recherche terminologique. 

Cet ouvrage s'adresse à tous les chercheurs en terminologie qui 
souhaitent en savoir plus sur la création d'une base de données termi- 
nologiques numérique. Sans privilégier un domaine de recherche par- 
ticulier, les orientations présentées peuvent s'appliquer à tout domaine 
de travail spécialisé et s'adapter à toute prémisse théorique adoptée. 
Cependant, il est important de souligner que nous nous concentrons 
davantage sur l'aspect de modélisation conceptuelle de la ressource. 
Par conséquent, certaines phases d'implémentation plus techniques ne 
seront pas envisagées, car elles dépasseraient le cadre de cette étude. 
Des indications bibliographiques sur ces aspects seront de toute facon 
indiquées dans les chapitres correspondants. 

D'autre part, ce travail s'adresse également à ceux qui n'ont pas 
de connaissances en terminologie et appartiennent au côté plus infor- 
matique de la recherche scientifique. Comme nous l'avons évoqué 
précédemment, l'aspect collaboratif est essentiel pour la réalisation 
d'un travail de terminologie numérique. Par conséquent, les notions 
théoriques fournies peuvent étre utiles aux informaticiens afin de com- 
prendre les exigences sous-jacentes à la mise en ceuvre effective d'une 
ressource terminologique. 
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Cet ouvrage est organisé en six chapitres. Le premier chapitre est 
destiné à introduire le processus de numérisation de la terminologie. 
Dans une vocation méta-terminologique, nous retraçons les acceptions 
classiquement attribuées à la discipline et à toutes ses déclinaisons (ter- 
minographie, terminotique et terminologie computationnelle). Ensuite, 
nous présentons la notion de « terminologie numérique » comme une 
approche visant à la représentation numérique d’informations termi- 
nologiques collectées au sein de ressources conçues à cet effet. Dans 
cette perspective, nous nous concentrons ensuite sur les principes exis- 
tant actuellement pour une organisation efficace des données et des 
métadonnées de la recherche en général et, finalement, des données 
linguistiques en particulier. 

Le deuxième chapitre vise à présenter les fondements pour une 
terminologie numérique. En ce sens, nous retraçons les théories et les 
approches qui se sont succédé et/ou juxtaposées depuis la naissance de 
la discipline : la théorie générale de la terminologie, la théorie com- 
municative de la terminologie, la socioterminologie, la terminologie 
sociocognitive, la terminologie culturelle, la terminologie textuelle et 
l'ontoterminologie. Ce panorama global permet, par la suite, d'appro- 
fondir les étapes du travail terminologique et, en particulier, d'explorer 
à la fois les dimensions conceptuelles et linguistiques de la terminolo- 
gie d'un secteur de spécialité donné. 

Une fois les méthodologies de collecte et d'analyse des concepts et 
des termes présentées, le chapitre 3 ouvre une réflexion évolutive sur 
la manière de structurer ces données au sein d'une ressource termino- 
logique à concevoir. En particulier, nous présentons, dans un premier 
temps, une adaptation des principes FAIR susmentionnés à la disci- 
pline de la terminologie et nous formulons le paradigme de la « termi- 
nologie FAIR » aboutissant à l'adoption de trois normes ISO pour la 
gestion des terminologies, à savoir la norme ISO-16642 : 2017, la norme 
ISO-12620 : 2019, et la norme ISO-30042 : 2019, afin de rendre les 
(méta)données terminologiques trouvables, accessibles, interopérables 
et réutilisables. La deuxième partie du chapitre permet d'entrer au cœur 
de la phase de modélisation conceptuelle de la ressource. À partir de 
la définition du schéma entité-association, nous définissons les objets 
d'intérét, leurs propriétés et les associations qui les lient. Ensuite, nous 
explorons les deux premières normes mentionnées ci-dessus en tant 
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que la première permet de modéliser les entités « concept », « terme » 
et « langue » et de définir clairement leurs relations, tandis que la 
seconde permet de représenter et d’harmoniser les propriétés (catégo- 
ries de données) choisies pour chaque entité. 

Le chapitre 4 vise à faire avancer la réflexion de la phase de 
conception à la phase d’implémentation de la ressource terminologique. 
Le format TermBase eXchange promu dans le cadre de la troisième 
norme mentionnée ci-dessus est adopté comme modèle de représenta- 
tion des données terminologiques, car il est spécifiquement conçu pour 
l'échange et la réutilisation des données. Par la suite, nous articulons 
quelques réflexions concernant les phases d'actualisation — à savoir l'in- 
sertion, la modification et la suppression — et de publication de données 
terminologiques, proposant au lecteur une illustration critique des pro- 
blémes qui peuvent survenir et quelles solutions peuvent étre adoptées 
pour mieux gérer une collection terminologique. 

À titre d'exemple, le chapitre 5 illustre une démonstration de l'ap- 
plication du paradigme FAIR en présentant une étude de cas d'une res- 
source terminologique pour le domaine médical. La ressource Tri MED 
décrite fait partie d'un projet doctoral visant à fournir un outil mul- 
tilingue et polyvalent qui prend en charge les besoins d'information 
de différentes catégories d'utilisateurs — patients, traducteurs et méde- 
cins — impliqués dans le processus de communication médicale. En 
particulier, nous décrivons l'analyse des exigences menée à la fois en 
termes de spécificités de la langue de spécialité médicale et en termes 
de structuration de la ressource. Nous présentons donc un nouveau 
modèle de fiche terminologique structurée et standardisée qui présente 
un vaste panorama d'informations afin de cadrer le comportement 
morphosyntaxique, sémantique et phraséologique des termes étudiés. 
Enfin, nous illustrons l'application Web conçue ad hoc pour la consul- 
tation et la réutilisation à grande échelle de la collection terminologique 
multilingue. 

En guise de conclusion, le chapitre 6 illustre les possibilités qui 
s'offrent au terminologue numérique une fois le processus de mise en 
œuvre au format standard TBX achevé. Cette dernière section vise à 
démontrer que le processus de FAIRisation des données terminolo- 
giques est une activité dynamique qui évolue dans le temps et est sujette 
à des transformations continues afin de tirer les bénéfices découlant, 
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par exemple, de l’adoption d’une structuration des données conforme 
aux principes des données liés qui sous-tendent le Web sémantique. 
La réalisation de cet ouvrage n’aurait pas été possible sans l’enca- 
drement et l'appui de mes deux mentors, Professeure Geneviève Marie 
Henrot et Professeur Giorgio Maria Di Nunzio qui, avec une grande 
générosité, m'ont enseigné et transmis la passion pour la recherche 
scientifique. Je tiens aussi à exprimer ma reconnaissance à la Profes- 
seure Rute Costa pour tous ses conseils, le temps consacré et ses pré- 
cieux enseignements tant sur le plan professionnel que personnel. 


1 Numérisation de la terminologie 


Hermès doit troquer la plume, le stylet, le papyrus, le papier pour 
l'écran d'ordinateur, le disque dur, la tablette. 


(Meunier, 2014) 


Numériser signifie représenter des informations sous forme numérique. 
Le processus de numérisation et la transformation que cela implique 
se reflétent dans tous les aspects de notre vie. Dans le domaine de la 
recherche en terminologie, ce processus se traduit, comme nous le ver- 
rons au cours de cet ouvrage, par une refonte épistémologique de la 
discipline méme et des savoirs et savoir-faire scientifiques associés. 
En ce sens, la citation d'ouverture de ce chapitre nous permet de nous 
positionner en vue de revisiter les disciplines des sciences humaines et 
sociales en clé numérique et computationnelle. Loin d'enquéter sur des 
questions inter-linguistiques portant sur l'équivalence traductive entre 
l'expression anglaise « digital humanities » et l'expression frangaise 
« humanités numériques »!, Gefen (2015) affirme que : 


les humanités numériques sont favorisées et favorisent en retour l'émergence 
d'une épistémologie empirique et décentrée, indissociable d'une approche prag- 
matique, interdisciplinaire, décloisonnée des faits culturels. 


Dans cette perspective, ce premier chapitre est consacré à la présenta- 
tion de l'évolution de la discipline de la terminologie en tant que science 
humaine et sociale, à la réflexion sur les défis épistémologiques aux- 
quels le chercheur est confronté et à l'investigation des besoins qu'il se 
trouve à devoir satisfaire à l’ère numérique actuelle. 


1 Ace propos, voir, par exemple, l'introduction de l’article de Berra (2012). 
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1.1 Pour une métaterminologie 


Mais qu'est-ce que la terminologie numérique ? Et quelles compétences 
analytiques interdisciplinaires implique-t-elle pour le déroulement 
optimal du travail terminologique numérique ? 

Afin d'introduire ces aspects, cette premiére section vise à passer 
brièvement en revue, du point de vue métaterminologique, l'ensemble 
des acceptions classiquement retenues pour définir les disciplines de la 
« terminologie », de la « terminographie », de la « terminotique » et de 
la « terminologie computationnelle ». À partir de ce dernier domaine 
de recherche appliquée, nous tracerons les frontières — plus ou moins 
marquées — entre les concepts de « computation » et de « numérisa- 
tion » appliqués à la terminologie dans le but d'introduire la notion de 
« terminologie numérique ». 


1.1.1 Terminologie, terminographie et terminotique 


« Terminologie » est un terme polysémique renvoyant à la fois à la 
science qui étudie les termes pertinents à une langue de spécialité don- 
née, et à l'ensemble de ces mêmes termes pour un domaine de spécia- 
lisation donné (Sager, 1990). D'un point de vue métaterminologique, 
il est intéressant de noter l'évolution de la norme ISO 1087, visant à 
systématiser le vocabulaire de la discipline, et de comparer sa version 
obsoléte publiée en 2000 et intitulée « Travaux terminologiques — Voca- 
bulaire » (ISO 1087-1, 2000) et sa version actuellement en vigueur de 
2019 intitulée « Travail terminologique et science de la terminologie — 
Vocabulaire » (ISO 1087-1, 2019). En effet, alors que dans la première 
le terme « terminologie » conserve cette double signification, dans la 
seconde on distingue entre 1) « terminologie » comme l’« ensemble des 
désignations et des concepts appartenant à un domaine ou à un sujet », 
et 2) « science de la terminologie » en tant que « science étudiant les 
terminologies, les aspects du travail terminologique, et les ressources 
terminologiques et données terminologiques qui en découlent ». 

En gardant à l'esprit cette distinction, dans cet ouvrage on se réfé- 
rera — pour de pures raisons conventionnelles — à la « terminologie » 
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en tant que discipline savante indépendante (Santos et Costa, 2015) 
dont les objets d’étude sont les « termes », à savoir les désignations des 
concepts d’un domaine de travail spécialisé?. Par conséquent, comme 
son champ d'investigation tombe sur les langues de spécialité (Lerat, 
1995), c’est-à-dire les langues relevant d’un domaine spécialisé de l’ac- 
tivité humaine (comme la médecine, l'économie, le droit), la terminolo- 
gie diffère de la discipline de la « lexicologie » portant plutôt sur l'étude 
des « mots » de la langue générale qui ne véhiculent pas des connais- 
sances spécialisées pour un domaine spécifique : 


thus the diflerence between terminology and lexicology is that the former is 
confined to the lexicon of subject fields (fields of special knowledge), and the lat- 
ter is concerned with the general lexicon of a language (Warburton, 2021, p. 4). 


L'opposition entre « terminologie » et « lexicologie » se refléte éga- 
lement sur le volet pratique des deux disciplines. Selon la norme ISO 
1087-1 (2019), la « terminographie » est définie en tant que « travail 
terminologique visant à créer et à tenir à jour des ressources termino- 
logiques ». La terminographie envisage donc l'ensemble des activités 
menées par le terminologue (ou terminographe ?) pour la concep- 
tion, l'implémentation et la préservation des ressources terminolo- 
giques, structurées comme des collections de données terminologiques 
relatives à une langue de spécialité donnée. Au contraire, la « lexi- 
cographie » porte plutót sur la création et le maintien de ressources 
lexicographiques relevant de la langue générale*. Comme l’affirme 
L'Homme (2004), les cótés applicatif et théorique de la discipline sont 
loin d'étre mutuellement exclusifs : 


2 Il faut également préciser que la discipline prend des nuances différentes selon 
le modèle théorique adopté (Costa, 2006). La section 2.1 du chapitre suivant sera 
consacrée à la description des différents courants de pensée, des approches et des 
méthodes qui se sont succédé et/ou juxtaposés au fil du temps. 

3 lest intéressant de noter que, dans la norme en question, il n'y a pas une défini- 
tion pour la figure du « terminologue » et/ou « terminographe ». 

4 Particle de Bergenholtz et Kaufmann (1997) propose, dans cette perspective, 
une enquéte critique contrastive des notions de « terminographie » et « lexico- 
graphie ». 
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la pratique fait souvent évoluer une théorie dans une direction qu’elle n’avait 
pas empruntée jusque-là. Les modèles théoriques, quant à eux, permettent aux 
praticiens d’examiner un objet sous un éclairage particulier. 


Cette dichotomie est fondamentale pour les aspects de numérisation 
de la terminologie. Comme nous le verrons au fil des pages suivantes, 
le volet théorique (conception ou modélisation conceptuelle) et le volet 
pratique (implémentation) et de la terminologie numérique sont des élé- 
ments indissociables et mutuels qui caractérisent le travail du termino- 
logue numérique. 

Par ailleurs, à la fin des années 1980, la notion de « terminotique » 
commence à prendre forme dans l’espace de recherche francophone 
(Gile, 1987 ; Auger, 1989 ; Gouadec, 1987). Le terme — né de la fusion 
de « terminologie » et « informatique » — désigne une discipline appli- 
quée à mi-chemin entre la linguistique computationnelle, l'ingénierie 
linguistique et la terminologie, et reléve de l'ensemble des activités 
menées par le terminologue impliquant l'utilisation des outils infor- 
matiques. L'informatique commengait donc à assumer un róle prépon- 
dérant dans la réalisation des étapes du travail terminologique. À titre 
d'exemple, l'étude de (Marzá, 2009, p. 159—160) résume une sélection 
de tâches terminographiques pour lesquelles la terminotique joue un 
róle crucial : 


— sélection automatique du corpus composé de textes numériques 
spécialisés ; 

— extraction automatique des termes pertinents pour le domaine de 
travail ; 

— élaboration automatique des définitions de termes ; 

— formulation automatique de la structure conceptuelle du domaine 
de travail ; 

— etc. 


Aujourd'hui, l'utilisation d'applications informatiques pour effectuer 
des travaux terminologiques se configure comme une pratique cou- 
ramment consolidée. La multiplication massive de ce type d'outils, leur 
convivialité et le besoin croissant de travailler avec de grandes quan- 
tités de données font donc de cette pratique une partie intégrante du 
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travail quotidien du terminologue. Comme l'affirmait déjà L'Homme 
en 2004 : 


actuellement, toute recherche portant sur des termes fait appel à une forme 
ou une autre de traitement informatique, si bien que la distinction entre ter- 
minotique et terminographie ne se justifie que dans un contexte pédagogique 
(L'Homme, 2004). 


En effet, il existe actuellement de nombreux enseignements universi- 
taires de « terminotique » qui sont généralement dispensés et intégrés 
dans des programmes de formation qui s'adressent aux futurs profes- 
sionnels de la traduction spécialisée, dans le but d'alimenter les connais- 
sances sur l'utilisation efficace des outils d'extraction automatique de la 
terminologie et de gestion des données terminologiques multilingues. 


1.1.2 Terminologie computationnelle 


Aujourd'hui, l'expression « terminologie computationnelle » est de 
plus en plus courante dans la littérature scientifique. Cette désignation 
fait référence à un domaine de recherche appliquée ayant pour objet le 
développement d'outils de manipulation de données textuelles à partir 
de fonctions mathématiques, de modèles statistiques et de processus de 
calcul. 


La terminologie computationnelle constitue un domaine de recherche du traite- 
ment automatique de la langue dont les acteurs — informaticiens, spécialistes des 
sciences de l'information, linguistes et, bien entendu, terminologues — mettent 
au point divers traitements automatiques appliqués aux textes spécialisés 
(L'Homme, 2004). 


La « terminologie computationnelle » et la « terminotique », décrite 
dans la section précédente, sont donc deux disciplines aux objectifs 
différents : la première porte sur le développement de systèmes, par 
exemple, pour l'extraction automatique de termes à partir de corpus 
spécialisés, la deuxiéme implique plutót l'utilisation et l'intégration 
de ces systémes pour favoriser et soutenir le déroulement du travail 
terminologique. 

Du point de vue historique, le site du sixième atelier de terminolo- 
gie computationnelle de 2020 offre un aperçu du contexte dans lequel 
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la discipline est née’. La recherche en terminologie computationnelle 
s'est consolidée au début des années 1990, lorsqu'une série d'articles 
sur l'extraction monolingue et multilingue de termes à partir de cor- 
pus textuels est apparue dans les principaux colloques de linguistique 
computationnelle, tels que l'Association for Computational Linguis- 
tics (ACL) et l'International Conference on Computational Linguistics 
(COLING). Même avant cette période, au cours des années 1980, la 
nécessité d'un forum commun pour échanger des informations entre les 
chercheurs en terminologie était bien reconnue. En 1988, la première 
séance d'un colloque important dans le domaine de la terminologie, à 
savoir Terminology and Knowledge Engineering (TKE), s'est tenue à 
Tréves, en Allemagne. TKE était et est davantage orienté vers l'organi- 
sation des concepts, ce qui refléte une caractéristique importante de la 
gestion de termes en terminologie. Par ailleurs, en 1995, un groupe de 
chercheurs frangais en intelligence artificielle et traitement du langage 
naturel a organisé le premier colloque en « Terminologie et Intelligence 
Artificielle » (TIA) à Villetaneuse (France) qui a rapidement acquis le 
róle du forum international pour la recherche terminologique. Ensuite, 
en 1997, un groupe de recherche japonais a développé une táche com- 
mune de reconnaissance automatique des termes, dont le résultat a été 
rapporté lors de l’atelier NTCIR TMREC (Workshop on Research in 
Japanese Text Retrieval and Term Recognition) qui a eu lieu en 19997. 

Dans ce contexte, la communauté scientifique voit naitre le 
domaine de recherche de la terminologie computationnelle. Les vingt 
derniéres années sont en effet la démonstration de la consolidation de 
la discipline à travers des ateliers spécifiquement conçus à cet égard. 
Sa première apparition a eu lieu en 1998 lors du colloque international 
de linguistique computationnelle COLING-ACL'98. À cette occasion, 
le First Workshop on Computational Terminology a été organisé avec 
l'objectif de rassembler des chercheurs de différentes communautés 
scientifiques (linguistique computationnelle, terminologie, traduction 


5 https://sites.google.com/view/computerm2020/background. 

6 Le site ACL Anthology offre un aperçu de tous les actes publiés dans les col- 
loques les plus importants de linguistique computationnelle : https:www.aclweb. 
org/anthology/. 

7  http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings/index.html. 
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automatique, recherche d’information et lexicographie) qui partageaient 
un même intérêt pour les aspects informatiques du traitement termino- 
logique. Les travaux présentés à l’atelier ont ensuite été publiés dans 
l'ouvrage édité par Bourigault et al. (2001), Recent advances in Compu- 
tational Terminology (John Benjamins Publishing Company). À partir 
de ce moment-là, d'autres événements ont contribué à promouvoir cette 
nouvelle discipline et à susciter de nouveaux intérêts sur le terrain®. En 
2002 le Second Workshop on Computational Terminology a conduit à 
la publication d'un numéro spécial sur la revue internationale Termi- 
nology édité par Kageura et al. (2004). En 2004 et 2014, les troisième 
et quatrième ateliers internationaux ont été respectivement organisés 
toujours lors de l'/nternational Conference on Computational Linguis- 
tics (COLING). Les deux derniers événements les plus récents ont eu 
lieu respectivement en 2016 et 2020. Le 5th International Workshop 
on Computational Terminology du 2016 a conduit à la publication du 
récent numéro spécial édité par Drouin et al. (2018) sur la revue Termi- 
nology. Le 6th International Workshop on Computational Terminology 
du 2020 a été intégré sous forme d'atelier d'une journée à l'occasion 
du colloque Language Resources and Evaluation Conference (LREC 
2020, Marseille-France)’. 

La terminologie computationnelle rassemble l'intérét des cher- 
cheurs qui ont ressenti le besoin d'améliorer la communication, ou d'ac- 
céder aux informations liées à un domaine de travail spécifique. De 
plus, les besoins scientifiques dans des domaines à croissance rapide 
(comme la biomédecine, la chimie et l'écologie) et la quantité écrasante 
de données textuelles publiées quotidiennement exigent que la termi- 
nologie soit acquise et gérée de manière systématique et automatique. 
À ce propos, différents types de ressources terminologiques, tels que 
des dictionnaires spécialisés, des bases de données terminologiques et 
des glossaires ont été mis en œuvre afin de répondre à ces besoins. 
Dans ce contexte, plusieurs techniques empruntées au traitement du 
langage naturel, à la recherche d'information, à la linguistique de cor- 
pus ou à l'intelligence artificielle permettent d'extraire et de représenter 


8  https//www.aclweb.org/anthology/venues/computerm/. 
9 Les actes de l'atelier sont disponibles à l'adresse suivante : http://www.lrec-conf. 
org/proceedings/lrec2020/workshops/COMPUTERM 2020/index.html. 
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des connaissances spécialisées. Grâce à ces approches, une énorme 
quantité de données peut être rapidement traitée et filtrée. 

D'un point de vue théorique et pratique, les chercheurs en termi- 
nologie computationnelle se concentrent d'abord sur l'identification et 
sur l'extraction automatique des unités terminologiques. Dans la litté- 
rature, de nombreuses études sont principalement axées sur l'extraction 
automatique de termes à partir d'un corpus de documents spécialisés au 
moyen d'approches 1) linguistiques, 2) statistiques et 3) hybrides : voir, 
entre autres, Nakagawa (2001) ; Vu et al. (2008) ; Foo (2012) ; Amja- 
dian et al. (2018) ; Sandoval et al. (2019) ; Simon et KeSelj (2018). 
L'acquisition de termes liés et pertinents à un domaine spécifique de 
l'activité humaine est effectuée automatiquement à l'aide d'approches 
computationnelles importées du domaine de la recherche d'informa- 
tion : Term frequency-Inverse Document Frequency (TF-IDF) (Salton 
et Yang, 1973), Mutual Information (Church et Hanks, 1990), 7-Score 
(Church et al., 1991), C/NC value (Frantzi et al., 1998). En outre, des 
ressources spécifiquement conçues pour cette tâche ont été élaborées 
afin d'augmenter les performances d'extraction : entre autres, TermoS- 
tat (Drouin, 2003), BiTermEx (Planas, 2012), TermExtractor (Sclano et 
Velardi, 2007), TBXTools (Oliver et Vàzquez, 2015) et l'outil TermE- 
valuator (Inkpen et al., 2016) conçu plutôt pour évaluer la qualité du 
processus d'extraction automatique”. 

L'importance d'une résolution efficace de cette táche se refléte enfin 
dans de nombreux domaines de recherche. L'extraction automatique de 
termes permet d'effectuer des táches liées à la recherche d'information 
(comme le repérage de documents pertinents pour une requéte donnée), 
à la fouille de textes (text mining), à la construction de ressources termi- 
nologiques, à la traduction automatique, etc. Le point de départ de tous 
ces travaux concerne l'identification des candidats termes et, par consé- 
quent, le filtrage entre, d'une part, les mots d'ordre général et, d'autre 
part, les termes spécifiques d'un domaine donné. En effet, toutes les 
études précédemment citées portent (plus ou moins explicitement) sur 
le concept de « poids » des termes dans une collection de documents 


10 Toujours dans ce contexte, l'étude de Costa et al. (2016) présente la description 
détaillée de différents outils d'extraction terminologique évaluant leur utilité 
pour les professionnels de la traduction. 
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afin d'indiquer les différents degrés de pertinence à un domaine. Ce 
concept a été exprimé, au fil du temps, à travers différentes dénomi- 
nations. Sparck-Jones (1972) définissait la notion de « spécificité » des 
termes comme une valeur calculable en fonction de la fréquence d'ap- 
parition des termes dans une collection des documents : 


the specificity of an individual term is the level of detail at which a given concept 
is represented [...] terms should be weighted according to collection frequency, 
so that matches on less frequent, more specific, terms are of greater value than 
matches on frequent terms (Sparck-Jones, 1972). 


En outre, Kageura et Umino (1996) introduisaient le concept de ter- 
mhood (« termicité » ou « termitude » (Humbley, 2016)) afin d'indiquer 
le degré de relation d'une unité linguistique à des concepts spécifiques 
pour un domaine, une valeur qui peut également étre calculée à l'aide 
d'approches statistiques. Dans ce sens, le degré de termicité d'un terme 
est donc une valeur déterminante pour la tâche d'extraction automa- 
tique des termes et repose, en général, sur la fréquence d'apparition 
d'un terme candidat dans le corpus analysé. 

Une fois les termes extraits, les variantes terminologiques, telles 
que des synonymes ou des variantes morpho-syntaxiques, peuvent 
être regroupées afin de fournir un aperçu précis du contenu d'un docu- 
ment spécialisé (voir, à ce propos, les numéros spéciaux de la revue 
Terminology édités par Kageura et al. (2004) ; Drouin et al. (2015)). 
Une autre question importante dans ce domaine de recherche est l'ex- 
traction de termes à partir de corpus bilingues pour le processus de 
traduction automatique. De nombreuses études visent donc à identi- 
fier des techniques pour l'extraction et l’alignement automatiques de 
paires d'équivalents (voir, entre autres, Loginova Clouet (2014) ; Lefe- 
ver et al. (2009) ; Macken et al. (2013)). En outre, les corpus utilisés 
pour extraire les unités terminologiques peuvent être étudiés plus en 
détail pour identifier les informations de nature conceptuelle. Dans ce 
sens, les corpus peuvent conduire à la construction de hiérarchies ou 
de réseaux conceptuels dans lesquels les termes sont interreliés selon 
des relations hyperonymiques/hyponymiques, méronymiques/holony- 
miques ou synonymiques/quasi-synonymiques (Gábor et al., 2018). Les 
hiérarchies conceptuelles peuvent ensuite être mises en œuvre dans des 
bases de connaissances terminologiques (Wang et al., 2018). 
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Enfin, dans l’introduction du numéro spécial édité par Drouin et al. 
(2018), on dénote la tendance de recherche impliquant la tâche de fil- 
trage de l'information terminologique : 


as the sheer volume of data being handled by terminology extraction tools is 
exploding, we believe that filtering techniques become one of the crucial or parts 
of computational terminology processing (Drouin et al., 2018, p. 2). 


Traditionnellement, les résultats de l'extraction automatique des termes 
utilisés par les terminologues étaient principalement filtrés manuelle- 
ment par des spécialistes de la langue ou du domaine. Aujourd'hui, 
afin de favoriser cette opération chronophage, l'intérét de la recherche 
est orienté vers la proposition de méthodes automatiques de filtrage de 
l'information et le raffinement du produit de l'extraction automatique 
à l’aide de techniques d'apprentissage profond (deep learning) et, en 
particulier, du modèle vectoriel word embedding (Bengio et al., 2003 ; 
Mikolov et al., 2013 ; Yadav et Bethard, 2018). 


1.1.3 Terminologie numérique 


L'évolution historique et les intérêts de recherche de la terminologie 
computationnelle nous permettent d'avancer vers la notion de « termi- 
nologie numérique ». Pour tracer une ligne de partage entre les deux 
disciplines, il faut tout d'abord s'attarder sur les notions de « compu- 
tationnel » et de « numérique », sous forme d'adjectifs substantivés. 
Comme nous l'avons vu précédemment, le « computationnel » fait réfé- 
rence à une propriété formelle de nature mathématique liée au concept 
de calculabilité (Meunier, 2014). Appliqué à la discipline de la termi- 
nologie, le « computationnel » permet donc d'exploiter des fonctions 
mathématiques et des processus de calcul pour l'exécution automatisée 
de táches terminologiques. 


11 En outre, le lecteur est renvoyé à l'article cité ici pour une analyse approfondie 
des termes « computation » et « ordinateur » : « la computation est un terme qui 
désigne en mathématiques une propriété formelle d'une fonction mathématique, 
alors que le terme ordinateur désigne la machine physique particuliére parmi 
plusieurs autres possibles peut effectuer concrétement le calcul d'une fonction » 
(Meunier, 2014, p. 7). 
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Pour sa part, le « numérique » concerne plutôt la représentation 
sous forme de nombres d’une information donnée (par exemple, texte et 
images). En ce sens, nous définissons la terminologie numérique (digital 
terminology) comme une approche à la discipline classique impliquant 
la représentation numérique d’informations de type terminologique au 
sein de ressources spécifiquement conçues dans ce contexte. Ce type 
de représentation nécessite un processus de modélisation conceptuelle 
de la structure des données, des métadonnées et de la collection termi- 
nologique préalable aux phases proprement dites d’implémentation et 
de peuplement de la ressource. La terminologie numérique comprend 
donc l’ensemble des activités pour la conception et l’implémentation 
de ressources numérisées contenant les informations terminologiques 
pour un domaine de travail donné". 

Le développement d'un tel type d'outils n'est en aucun cas un phé- 
noméne nouveau dans le monde de la terminologie. En effet, le ter- 
minologue/terminographe s'est toujours occupé, comme nous l'avons 
vu précédemment, de « créer » et « tenir à jour » les ressources ter- 
minologiques (ISO 1087-1, 2019). Cependant, comme nous le verrons 
dans les sections suivantes, les exigences de l'ére numérique actuelle et 
Pavenement du Web sémantique impliquent que cette tâche soit réalisée 
en répondant à des critères et des principes spécifiques pour l'organi- 
sation et la gestion optimale des données. À ce propos, nous citons un 
extrait de l'introduction du numéro spécial Terminological resources in 
the digital age publié par Roche et al. (2019) sur la revue Terminology. 
International Journal of Theoretical and Applied Issues in Specialized 
Communication : 


in a globalised society, terminological dictionaries — including resources such 
as knowledge and terminological databases, ontologies, wordnets, "traditio- 
nal" dictionaries, etc. — should comply with both human and machine needs. 


Lors de la réalisation d'une ressource, le terminologue de l'ére numé- 
rique doit donc prendre en compte non seulement les besoins d'in- 
formation de l'utilisateur, mais aussi les exigences structurelles de 


12 Les chapitres suivants (2—3—4) seront entiérement consacrés à la définition et à 
la description de ces activités. 
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la ressource elle-même afin qu’elle puisse être intégrée dans le Web 
sémantique : 


changes regarding information and language processing brought forward by 
the evolution of society have led to a series of consequences in: (i) the design of 
terminological resources; (ii) the way data and knowledge are represented; (iii) 
the way data are interrelated, both within and between resources; (iv) the way 
users access data; and (v) users’ expectations (Roche et al., 2019). 


Tous les aspects énumérés ci-dessus constituent donc de nouveaux 
éléments de réflexion sur lesquels le terminologue de l'ére numérique 
actuelle doit se pencher. En termes de complémentarité, l'évolution de 
cette figure implique donc le développement de compétences de pen- 
sée numérique accompagnant les réflexions conceptuelles et linguis- 
tiques traditionnelles qui caractérisent la discipline. Conformément 
aux principes qui seront présentés dans la section suivante, le termino- 
logue numérique est donc celui qui considére le produit de son travail 
comme une ressource « numérisable » qui doit étre congue et structurée 
de manière optimale afin de préserver et de partager sa valeur à long 
terme. Cette figure veille donc, non seulement à obtenir une donnée 
terminologique à partir de l'étude d'une langue de spécialité donnée, 
mais aussi à la modéliser structurellement de la manière la plus effi- 
cace, par exemple, pour en assurer son accessibilité et sa réutilisation 
pour d'autres études et/ou applications. 


1.2 Curation des données numériques 


La terminologie numérique, telle qu'elle vient d'étre définie, implique 
donc des compétences de gestion optimale des données visant à préser- 
ver la valeur, favoriser le partage et assurer la réutilisation du produit 
terminologique sur le Web. En général : 


gérer les données, c'est s'assurer que celles-ci sont correctement sélectionnées, 
décrites, préservées et rendues accessibles pour un traitement et/ou une réuti- 
lisation, et ce, bien au-delà du projet de recherche qui les a fait naître et les a 
exploitées au premier chef. 
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C'est ainsi que les auteurs Calderan et Millet (2015) définissent l’en- 
semble de tâches relevant de l’activité de « curation de données » 
(de l’anglais data curation). Cette notion identifie donc l’ensemble 
de bonnes pratiques pour la gestion et la mise à la disposition des 
données de la recherche (Palmer et al., 2013), dont la responsabi- 
lité incombe inévitablement au chercheur qui produit ces données 
(McLure et al., 2014 ; Corti et al., 2019). La bonne gestion des don- 
nées n’est pas un objectif en soi, mais plutôt le principal moyen 
menant à la découverte et à l’innovation des connaissances, ainsi 
qu'à l'intégration et à la réutilisation des données par la communauté 
scientifique. 

L'ampleur et l'importance de la curation des données à l’ère numé- 
rique ont fait émerger de nombreuses initiatives visant à fournir des 
lignes directrices pour en assurer leur partage et leur réutilisation sur le 
Web. Dans les sections suivantes, nous nous concentrons sur la descrip- 
tion de ces principes qui sous-tendent l’activité de curation des données 
de la part du terminologue numérique. 


1.2.1 Principes FAIR 


Les exigences de préservation, de partage et de réutilisation ne s’ap- 
pliquent pas uniquement au domaine de recherche de la terminologie, 
mais se configurent comme des enjeux pertinents pour toutes les disci- 
plines scientifiques au sens large. 

Dans ce contexte, un ensemble de principes a été publié par Wilk- 
inson et al. (2016), sous le nome de FAIR Guiding Principles", afin 
de promouvoir l'organisation et la gestion optimales des données de la 
recherche. Ces lignes directrices soulignent la nécessité de mettre à la 
disposition de la communauté scientifique des données de la recherche 
trouvables, accessibles, interopérables et réutilisables (de l'anglais Fin- 
dable, Accessible, Interoperable and Reusable)". Les principes FAIR 


13 https://www.go-fair.org/fair-principles/. 

14 Une note de nature inter-linguistique s'impose à cet égard. Dans le contexte 
francophone, l'expression anglaise FAIR data trouve comme équivalent fran- 
cais l'expression « données FAIR » dont l'acronyme renvoie à différentes formes 
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se réfèrent à trois types d’entités : les données (ou tout objet numé- 
rique), les métadonnées (informations sur cet objet numérique) et les 
infrastructures. Toutes les composantes du processus de recherche 
bénéficient donc de l’application de ces principes, afin d’en garantir la 
transparence, la reproductibilité et la réutilisabilité. En particulier : 


— La « trouvabilité » implique que les données et les métadonnées 
soient identifiées de manière unique et persistante grâce à l'attribu- 
tion de PID (Persistent Identifier — identifiant pérenne). De plus, les 
données doivent étre décrites de maniére exhaustive gráce à l'utili- 
sation de métadonnées qui doivent, à leur tour, indiquer explicite- 
ment à quelles données elles se réfèrent. Enfin, les deux éléments 
doivent étre indexés sur des ressources trouvables. 

— Lx accessibilité » implique que les données et métadonnées 
puissent étre récupérées gráce à leur identifiant en utilisant des 
protocoles de communication standards, ouverts, gratuits, univer- 
sellement applicables et, si nécessaire, prévoyant des procédures 


développées selon les sources consultées. Si l'on regarde, par exemple, le « Plan 
de données de la recherche du CNRS - Novembre 2020 » (https://bit.ly/3Hy6 
jnq), on peut remarquer que la traduction frangaise utilisée correspond à « don- 
nées Faciles à trouver, Accessibles, Intéroperables et Réutilisables », permettant 
ainsi de conserver l'acronyme d'origine. Le méme avantage est apporté par la 
solution proposée sur le site FranceTerme (http://www.culture.fr/franceterme/ 
terme/INFO962, date d’accès : 28/02/2022) dans lequel l'expression « données 
Facilement Accessibles, Interopérables et Réutilisables » est illustrée comme 
traduisante. Dans ce dernier cas, il convient cependant de noter que le choix 
retenu entraine, à notre avis, la perte de la composante de « Trouvabilité » (Fin- 
dability) qui se retrouve incorporée dans la formule « Facilement Accessible ». 
En effet, le fait d'étre trouvable et le fait d'étre accessible désignent deux pro- 
priétés différentes selon les caractéristiques illustrées dans ces pages. Ainsi, une 
ressource linguistique peut étre trouvable (ou facilement trouvable) sur le réseau 
Internet par un utilisateur, mais en méme temps inaccessible car, par exemple, 
elle n'inclut pas de protocoles de communication ouverts. L'accessibilité est donc 
une propriété qui se manifeste secondairement à la trouvabilité des données, des 
métadonnées ou de l'infrastructure. Pour ces raisons, nous utiliserons dans cet 
ouvrage l'acronyme FAIR retraçant le sens qui promeut une distinction claire 
entre les deux composants de Findability et d'Accessibility qui seront traduits 
individuellement par « Trouvabilité » et « Accessibilité ». 
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d’authentification/d’autorisation. Enfin, les métadonnées doivent 
être accessibles même lorsque les données ne sont plus disponibles. 

— Lx interopérabilité » implique que les données et métadonnées uti- 
lisent un langage de représentation des connaissances formel, acces- 
sible et partagé. De plus, ces deux éléments doivent utiliser des 
vocabulaires respectant les principes FAIR et inclure, le cas échéant, 
des références à d’autres données et métadonnées. 

— La «réutilisabilité » implique que les données et métadonnées soient 
décrites de manière exhaustive avec des attributs pertinents et pré- 
cis, qu'elles soient délivrées avec des licences d'utilisation et qu'elles 
aient clairement indiqué les détails concernant leur origine. Enfin, 
les deux éléments doivent suivre les normes de référence pour le 
domaine d'intérêt. 


Une architecture de données FAIR constitue donc le pilier pour l'évolu- 
tion de la science ouverte. Les travaux de la plateforme European Open 
Science Cloud (EOSC) sont basés sur ces lignes directrices avec l'ambi- 
tion ultime de développer un « Web de données et de services FAIR » 
pour la science en Europe sur lequel un large éventail de services à valeur 
ajoutée peut être construit’. 

Dans le cadre de la recherche en linguistique, l'application de ces 
principes acquiert un róle fondamental pour préserver la valeur des res- 
sources produites constituant un héritage culturel inestimable qui, par sa 
nature, se préte à une réutilisation fructueuse à de nombreuses fins. Toute- 
fois, dans ce contexte, les données de la recherche sont encore loin d'étre 
FAIR. En effet : 


language resources (dictionaries, terminologies, corpora, etc.) developed in the 
fields of corpus linguistics, computational linguistics and natural language proces- 
sing (NLP) are ofien encoded in heterogeneous formats and developed in isolation 
from one another (Cimiano et al., 2020). 


Cela rend leur découverte, leur réutilisation et leur intégration, une 
tâche difficile et lourde. Dans ce contexte, il faut noter les efforts menés 
par l'infrastructure de recherche européenne Common Language 


15 https://bit.ly/3FfDMmm. 
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Resources and Technology Infrastructure (CLARIN)! qui permet aux 
chercheurs en sciences humaines d'accéder aux ressources et technolo- 
gies linguistiques disponibles au niveau européen, et vise à promouvoir 
une architecture des données conforme aux principes FAIR" (De Jong 
et al., 2018). Dans cette perspective, cet ouvrage entend contribuer à 
l'application des principes FAIR dans l'espace de recherche en termi- 
nologie. Dans le chapitre 3, nous présenterons la formulation du para- 
digme de la « terminologie FAIR » afin de fournir des lignes directrices 
pour la conception et l'implémentation d'une ressource terminologique 
numérisée conforme aux lignes directrices décrites ci-dessus. 


1.2.2 Principes des données liées 


Dans le cadre de la curation des données numériques, les principes 
des données liées jouent un róle clé en tant qu'ensemble de bonnes 
pratiques pour partager et lier les données sur le Web sur la base des 
normes internationales promues par le World Wide Web Consortium 
(W3C) (Bizer et al., 2009). 

Introduit par Berners-Lee (2006), le terme Linked Data (données 
liées) désigne les pratiques nécessaires à la mise en œuvre de l'architec- 
ture du Web sémantique, entendu comme une extension du Web actuel 
dans lequel : 


information is given well-defined meaning better enabling computers and people 
to work in cooperation (Berners-Lee et al., 2001). 


Les principes des données liées sont donc appliqués pour permettre un 
passage massif d'un « Web de documents », orienté principalement vers 
les humains, à un « Web de données », destiné plutót aux machines afin 
de favoriser un leur dialogue plus efficace'*. En particulier, les quatre 
principes des données liées prévoient : 


16  https://www.clarin.eu. 

17 Mhttps//www.clarin.eu/fair. 

18 Pour une description approfondie du Web sémantique, le lecteur est également 
renvoyé à la récente publication de Hendler et al. (2020). 


Curation des données numériques 39 


l'utilisation d'URI (Uniform Resource Identifier — identifiant 
uniforme de ressource)? pour nommer de maniére unique 
toute entité, concréte ou abstraite, présente sur le Web (par 
exemple, toutes les entrées des termes dans une base de don- 
nées terminologiques) ; 

l'emploi d'URI HTTP (Hypertext Transfer Protocol — proto- 
cole de transfert hypertexte) afin que tout agent (ordinateur 
ou humain) puisse consulter et récupérer ces noms via des pro- 
tocoles de communication standard ; 

l'enrichissement d'informations utiles sur l'URI consulté à 
travers l'utilisation de standards Web tels que le Resource 
Description Framework (RDF)! pour la représentation des 
données et SPARQL? pour l'interrogation de données liées ; 
Pinclusion de liens vers d'autres URI afin d'établir un réseau 
de ressources liées et de faciliter la découverte de nouvelles 
entités. 


Gráce à l'architecture établie avec l'adoption de ces principes, tout — 
des objets du monde réel aux concepts abstraits — peut désormais étre 
identifié et relié sur le Web, aidant en ce sens à soutenir également la 
réalisation des principes FAIR susmentionnés pour les données numé- 
riques (Cimiano et al., 2020). 


Un autre élément clé dans le cadre des données liées est la néces- 


sité de rendre les mêmes données disponibles via des licences ouvertes, 
conduisant ainsi à la notion de données ouvertes liées (Linked Open 
Data — LOD). Les données ouvertes liées reposent sur un systéme 


19 
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Un URI est une chaine de caractères identifiant une ressource (physique ou abs- 
traite) sur le Web. Un URI est une version généralisée d'une URL (Uniform 
Resource Locator — localisateur uniforme de ressource), et une URL est un type 
d'URI sous forme de chaine de caractères qui permet d'identifier une ressource 
du Web par son emplacement et de préciser le protocole Internet pour la récupé- 
rer : https://www.ietf.org/rfc/rfc3986.txt. 
https://datatracker.ietf.org/doc/html/rfc7540. 

Le RDF est un modèle de données commun qui permet de modéliser formelle- 
ment les informations sur le Web sur la base de la notion de triplet en tant qu'as- 
sociation constituée d'un sujet, d'un prédicat et d'un objet : https://www.w3.org/ 
RDF/ Le modèle RDF sera décrit plus en détail dans la section 6.1 du chapitre 6. 
https://www.w3.org/TR/rdf-spargl-query/. 
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d'évaluation à 5 étoiles? selon lequel les données à publier doivent 
répondre cumulativement à un certain nombre de critéres : 


l. la premiere étoile prévoit que les données sont disponibles sur 
le Web, quel que soit le format, sous licence ouverte ; 

2. la deuxième étoile présume que les données sont disponibles 
sous forme de données structurées (par exemple au format 
Excel) et lisibles par machine ; 

3. la troisième étoile envisage à la fois les critères précédents 
avec, en plus, l'utilisation d'un format non-propriétaire (par 
exemple CSV au lieu d'Excel) ; 

4. la quatrième étoile comprend tout ce qui précède plus l'utilisa- 
tion de normes ouvertes du W3C, telles que RDF et SPARQL ; 

5. la cinquième étoile englobe tout ce qui précède avec l'ajout du 
lien vers des données appartenant à d'autres personnes afin de 
fournir du contexte supplémentaire. 


Aujourd'hui, de nombreuses données ouvertes liées ont été publiées et 
reliées entre elles au sein de ce que l'on appelle le nuage de données 
liées ouvertes (Linked Open Data Cloud) qui a connu une croissance 
exponentielle ces dernières années”. 


1.2.3 Données linguistiques liées ouvertes 


Le potentiel des données ouvertes liées a permis l'émergence, depuis 
une dizaine d'années, d'une communauté de recherche dont les efforts 
sont orientés vers l'application de ces principes aux données de nature 
linguistique (Cimiano et al., 2020). Dans ce panorama, l'initiative de 
données linguistiques liées ouvertes (Linguistic Linked Open Data — 
LLOD) (Chiarcos et al., 2012) prend forme rassemblant de nombreux 
chercheurs — en linguistique, linguistique computationnelle et traite- 
ment automatique des langues — actifs dans la promotion des meilleures 


23 https://www.w3.org/DesignIssues/LinkedData.html. 
24 A cet égard, le site Web suivant montre l'évolution du diagramme des données 
ouvertes liées au fil du temps : https://lod-cloud.net. 
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The Linguistic Linked Open Data Cloud from lod-cloud.net 


Image 1.1 — Nuage LLOD, Juillet 2020 


pratiques et outils pour favoriser l'accessibilité et la réutilisation des 
ressources linguistiques et langagières sur le Web. 

Les efforts de la communauté ont conduit au développement du 
nuage de données linguistiques liées ouvertes (Linguistic Linked Open 
Data cloud y? qui indexe l'écosystéme croissant d'ensembles de données 


25  http://linguistic-lod.org/llod-cloud. 
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linguistiques liés sémantiquement sur le Web. L'image 1.1% montre les 
ensembles de données linguistiques actuels (corpus, terminologies, 
thésaurus, etc.) publiés en tant que LLOD et leurs connexions asso- 
ciées. Le nuage est maintenu par l'Open Linguistics Working Group 
(OWLG)" de l'Open Knowledge Foundation dont l'objectif principal 
est de promouvoir et d'atteindre l'ouverture des données en linguistique 
(McCrae et al., 2016). De plus, en ce qui concerne les différentes initia- 
tives visant l'application des LLOD, on peut citer, parmi les autres, le 
développement du récent projet international Prét-à-LLOD"5, et lorga- 
nisation d'événements à fort impact scientifique, comme l'atelier Lin- 
ked Data in Linguistics (LDL)? et le colloque Language, Data and 
Knowledge (LDK)*. 

En ce sens, ces occasions offrent le scénario idéal pour sensibili- 
ser à l'importance de la curation des données de nature linguistique 
afin de se conformer aux besoins actuels de l'ére numérique et du Web 
sémantique. 


1.3 Conclusion 


Ce chapitre avait pour but d'introduire à la notion de numérisation 
de la terminologie. Dans une perspective méta-terminologique, nous 
avons retracé les notions de « terminologie », de « terminographie », de 
« terminotique » et de « terminologie computationnelle » en décrivant, 
d'une maniére générale, les champs d'investigation et les facettes de 
ces disciplines. 


26 Source: “Open Linguistics Working Group (2012), The Linguistic Linked Open 
Data cloud diagram (draft) version of, http://linguistic-lod.org/llod-cloud” 
(2020). 

27  http://linguistics.okfn.org. 

28  http://www.pret-a-llod.eu/. 

29 Le lien suivant renvoie au site de la dernière édition de l'atelier de 2020 : http:// 
1d12020.linguistic-lod.org. 

30 Le lien suivant renvoie au site de la dernière édition du colloque de 2021 : http:// 
2021.1dk-conf.org. 
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Par ailleurs, une attention particulière a été accordée à la notion 
de « terminologie numérique » en tant que champ de recherche visant 
à la représentation de l’information terminologique numérique, et 
consacré à l’ensemble des activités pour la conception et l’implémen- 
tation optimales des ressources terminologiques numériques. Comme 
nous l’avons annoncé à plusieurs reprises, le terminologue numérique 
est celui qui conçoit le produit de son travail comme un patrimoine 
à préserver et à rendre disponible pour une réutilisation future. Cela 
implique des défis épistémologiques pour le chercheur qui se trouve 
impliqué dans la tâche de modélisation conceptuelle des données en 
fonction des besoins actuels de l’ère numérique et de l’avènement du 
Web sémantique. En ce sens, nous avons défini les principes FAIR, 
les principes des données liées et les initiatives qui tournent autour de 
ces bonnes pratiques pour la curation des données linguistiques numé- 
riques. 

Le chapitre suivant sera consacré à la définition des fondements 
pour une terminologie numérique afin de décrire, dans un premier 
temps, les approches théoriques en terminologie et, ensuite, les étapes 
du travail terminologique préalable aux phases de conception et de 
mise en œuvre d’une ressource numérique. 


2 Fondements pour une terminologie numérique 


The final objective of any theory must be to describe real data [...]. 
The theory of terminology is no exception. 


(Cabré Castellví, 2003) 


Avant d'entrer dans le vif du travail du terminologue numérique, il est 
nécessaire de retracer les fondements théoriques de la terminologie qui 
ont contribué à affirmer ce qui est, à ce jour, une discipline indépendante 
(Costa, 2006, 2013 ; Santos et Costa, 2015) et, de plus en plus fréquem- 
ment, objet d'enseignement académique. 

Les sections suivantes sont consacrées à l'évolution historique de 
la terminologie et à la description des différentes approches qui se sont 
succédé et/ou juxtaposées au fil du temps. Ce panorama nous permettra, 
par la suite, d'aborder les étapes du travail terminologique et les métho- 
dologies de son élaboration afin d'identifier les éléments sous-jacents à 
la constitution d'une ressource terminologique numérique conforme aux 
bonnes pratiques de curation des données. 


2.] Théories et approches en terminologie 


L'histoire de la terminologie est étroitement liée aux personnalités qui, par 
leur théorisation, ont contribué à sa définition formelle. 

Vere pionnière des études terminologiques est liée à la figure de 
l'ingénieur Eugen Wüster (1898—1977) considéré à l'unanimité comme 
le fondateur de la terminologie moderne. En effet, la discipline com- 
mence à acquérir un statut indépendant depuis la publication de sa thèse 
de doctorat Internationale Sprachnormung in der Technik, besonders 
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in der Elektrotechnik en 1931 (Felber, 1981). Son travail a permis la 
fondation de l’« école de terminologie de Vienne »?', caractérisée par 
une conception de la discipline centrée sur le concept et orientée vers 
la normalisation des termes afin de favoriser une communication claire 
entre les experts d'un secteur donné. Cependant, la principale étude 
associée à la figure multiforme de Wüster est le travail publié à titre 
posthume par son collègue et disciple Helmut Felber (1925-2005) en 
1979 : Einführung in die allgemeine Terminologielehre und terminolo- 
gische Lexikographie. Considéré par Picht (1982) comme une ressource 
pédagogique, l'ouvrage constitue le cadre théorique de ce qu'on appelle 
aujourd'hui la « Théorie générale de la terminologie » ou « Théorie 
classique de la terminologie ». 

Les principes sur lesquels repose la théorie wüstérienne visent à 
désambigüiser la communication dans les secteurs de spécialité. Pour ce 
faire, la théorie générale de la terminologie privilégie une relation biuni- 
voque entre les concepts et les désignations de concepts (termes) : « à 
une forme correspond un seul concept et un concept est exprimé par 
une seule forme » (L'Homme, 2004). En adoptant une démarche de type 
onomasiologique”, le terminologue se trouve engagé d'abord dans lex- 
ploration de la dimension et de la structure conceptuelle d'un domaine 
de travail donné et, ensuite, dans l'identification de sa réalisation lin- 
guistique, c'est-à-dire des termes désignant ces concepts. De plus, selon 
le principe de biunivocité, les phénomènes linguistiques tels que la 
synonymie et la polysémie devraient être minimisés, car ils pourraient 
constituer des obstacles à une communication claire et précise. 

La composante de normalisation de la langue est donc au coeur 
de cette théorie. À cet égard, il faut rappeler que Wüster a travaillé 
activement dans le domaine de la normalisation internationale en coo- 
pérant avec l'Organisation internationale de normalisation — Interna- 
tional Organization for Standardization (ISO)? — et en participant à 


3] Pour une description des différentes « écoles » de terminologie, voir, entre 
autres, le travail de Humbley (2014). 

32 La démarche onomasiologique (du concept vers le terme) s'oppose à la démarche 
sémasiologique généralement utilisée en lexicographie qui prévoit comme point 
de départ les mots dans leur environnement naturel (les textes) et, par la suite, 
l'identification de leur sens. 

33 https://www.iso.org/. 
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la création du Comité technique 37 chargé de l’élaboration de normes 
en « Langage et Terminologie »** (Felber, 1980 ; Galinski, 1982). La 
vision de la terminologie wüstérienne refléte donc l'union entre la 
nécessité d'une communication claire et précise entre les experts d'un 
secteur spécialisé, à une époque où les échanges internationaux dans 
les domaines de l'industrie et de la technologie étaient de plus en plus 
fréquents, et sa conception interdisciplinaire de la terminologie comme 
discipline à la frontiére entre la linguistique, l'ontologie et l'informa- 
tique (Zanola, 2018). 

L'empreinte laissée par le chercheur autrichien a jeté les bases pour 
des réflexions critiques par la communauté scientifique sur différents 
aspects de la discipline. En reprenant (Warburton, 2021, p. 12-13), la 
principale critique adressée est que la théorie générale de la termino- 
logie ne prend pas en compte la langue authentique dans son usage 
dynamique et que les concepts sont étudiés en dehors des contextes 
de communication spécifiques. Ces aspects ont conduit à remettre en 
cause certains des principes de base de la terminologie classique. Selon 
l'étude de Campo (2013), on peut tracer cinq courants de pensée qui se 
sont formalisés en tant que théories et/ou approches alternatives à la 
théorie générale : 


1. la théorie communicative de la terminologie (Cabré Castellví, 
1993, 2003) ; 

la socioterminologie (Boulanger, 1995 ; Gaudin, 1993, 2003) ; 
la terminologie sociocognitive (Temmerman, 2000) ; 

la terminologie culturelle (Diki-Kidiri, 2000) ; 

la terminologie textuelle (Auger et L'Homme, 1994 ; Bouri- 
gault et Slodzian, 1999 ; Condamines, 2005). 


S a 


Sans prétendre les analyser tous en détail, nous voyons dans les pages 
suivantes quels sont les principes généraux sur lesquels reposent ces 
formulations. 

Vers la fin des années 90, M. Teresa Cabré Castellví rassemble une 
série d’articles qui seront ensuite présentés comme le fondement de la 


34 Le lien pour consulter les normes élaborées au sein de ce comité technique est le 
suivant : https://www.iso.org/fr/committee/48104/x/catalogue/. 
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« Théorie communicative de la terminologie » (Cabré Castellvi, 1993, 
1999a,b). En mettant l'accent sur le côté communicatif de la discipline, 
l'objet d'étude de cette approche est l'« unité terminologique » (UT) qui 
est caractérisée par trois dimensions d'analyse : cognitive, linguistique 
et communicative. Une extension de cette approche a été formalisée 
par des publications postérieures (Cabré Castellví, 2003) sous le nom 
de theory of doors proposant un modèle qui : 


attempts to represent the plural, but not simultaneous, access to the object; and 
in such a way that, whether starting from the concept or the term or the situa- 
tions, the central object or terminological unit, is directly addressed. 


Les UT sont donc considérées comme des unités lexicales activées par 
leurs conditions pragmatiques et adaptées à un type de communication 
donné. Pour reprendre la terminologie employée par Cabré Castellví 
(19992), l'approche théorique communicative est donc orientée vers 
l'étude de la représentation de la connaissance in vivo, c'est-à-dire de la 
production linguistique spontanée, plutót que de la représentation de la 
connaissance in vitro issue de la langue normalisée. 

Dans la méme période historique, une approche orientée vers 
la dimension sociale de la terminologie commence à prendre forme. 
L'approche formalisée sous le nom de « Socioterminologie » (Boulan- 
ger, 1995 ; Gaudin, 1993, 2003) est la premiére à remettre en cause 
et à rejeter la « doctrine wüstérienne » (Humbley, 2004). En particu- 
lier, en s'opposant à l'idée de normalisation, les socioterminologues 
concentrent leur attention sur les aspects sociaux qui interviennent 
dans la langue et qui influencent les variations terminologiques (Gau- 
din, 2003). En ce sens, le terme n'est pas perçu comme une étiquette 
fixe d'un concept, mais il représente plutót une unité variable selon des 
facteurs sociolinguistiques. De la dimension sociale, il s'ensuit que les 
concepts sont des entités dynamiques qui évoluent, car les disciplines 
auxquelles elles appartiennent se développent au fil du temps. En outre, 
en contestant le principe d'univocité, les socioterminologues affirment 
que la polysémie et la synonymie appartiennent à la nature de la langue 
et, donc se produisent inévitablement dans le discours spécialisé. À 
partir de cette approche, une pléthore de publications sur la variation 
des termes a émergé dans le panorama de la recherche en terminolo- 
gie : parmi celles-ci, on peut citer les études de Freixa (2006) sur les 
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causes de la variation dénominative et le volume de Drouin et al. (2017) 
qui recueille un riche panorama sur les perspectives multiples de la 
variation terminologique. 

La dimension sociale des termes est relancée et élargie même par 
l'approche sociocognitive à la terminologie qui a ses origines dans le 
Centrum voor Vaktaal en Communicatie (CVC), groupe de recherche 
coordonné par Rita Temmerman et appartenant au Département de lin- 
guistique appliquée de la Vrije Universiteit Brussel (VUB)?. Temmer- 
man (2000) développe un « modèle sociocognitif » de la terminologie 
basé sur la sémantique cognitive et la théorie des prototypes. Contestant 
Puniversalité des concepts présupposée dans la théorie classique de la 
terminologie, l'auteure soutient que si certains concepts de domaines 
spécifiques peuvent étre délimités à travers une liste de caractéristiques 
finies, d'autres concepts sont beaucoup plus difficiles à circonscrire. En 
fournissant quelques exemples du domaine des sciences de la vie, Tem- 
merman démontre que certains concepts ne possèdent pas de prototype 
universel et, par conséquent, qu'ils sont mieux caractérisés comme des 
« unités de compréhension » (angl. unit of understanding) définies par 
un processus cognitif d'acquisition de connaissances dans le domaine 
de travail donné. Selon cette vision, le point de départ n'est pas donc le 
concept, mais plutót le terme que l'on trouve dans les textes écrits par 
des spécialistes du domaine (Temmerman, 1997). Parmi les principes 
fondamentaux de cette approche, une importance particulière est réser- 
vée également aux phénomènes de la synonymie et de la polysémie, qui 
jouent un róle clé dans les langues de spécialités, et à la dimension dia- 
chronique de la langue considérée comme un axe d'analyse inévitable 
(Temmerman, 2000). Enfin, une attention particulière est également 
consacrée à l'étude des métaphores, l'implémentation de ressources ter- 
minologiques multilingues et l'analyse de la variation terminologique. 

Une approche terminologique entiérement tournée vers l'aspect 
culturel est plutót proposée par Diki-Kidiri (2000) et inspirée de la 
situation spécifique des langues et sociétés africaines. La « terminolo- 
gie culturelle » : 


35 https://bit.ly/3amNGEF. 
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a pour objectif principal l’appropriation de nouveaux savoirs et savoir-faire 
qui arrivent dans une société donnée. Elle permet à cette société de trouver le 
mot juste pour exprimer chaque concept nouveau en puisant ses ressources lin- 
guistiques dans sa propre culture et selon sa propre perception du réel (Diki- 
Kidiri, 2007). 


En ce sens, l'approche propose que la vision du monde détermine la 
facon dont les individus classent, ordonnent, nomment et catégorisent 
tout ce qui est perçu ou conçu. La terminologie culturelle met donc 
l'accent sur la diversité culturelle et la nécessité de préserver les iden- 
tités culturelles par l'appropriation et la diffusion d'une terminologie 
spécialisée. 

La derniére approche évoquée par l'étude susmentionnée de 
Campo (2013) est identifiée sous le nom de « terminologie tex- 
tuelle » (Auger et L'Homme, 1994 ; Bourigault et Slodzian, 1999 ; 
Condamines, 2005). En particulier, pour la terminologie textuelle, le 
texte constitue le point de départ de l'analyse et de la description du 
terme qui est considéré comme un « construit » résultant de l'ana- 
lyse faite par le terminographe (Bourigault et Slodzian, 1999). Cette 
approche s'est développée à la fin du XX* siécle dans une période 
historique où l'évolution de la technologie et de la science a entraîné 
des changements considérables dans la dimension théorique et, sur- 
tout, pratique de la discipline de la terminologie. La possibilité de 
disposer de grandes quantités de données sous forme électronique 
et la nécessité de les gérer de manière optimale ont contribué au 
développement d'approches d'analyse terminologique basées sur les 
corpus (Condamines, 2007). Comme l'affirment Bourigault et Slo- 
dzian (1999) : 


devant la masse des données à analyser et les délais imposés, la táche d'analyse 
de corpus ne peut étre envisagée qu'avec l'utilisation des outils de la termino- 
logie textuelle (concordanciers, extracteurs de candidats termes, extracteurs de 
relations candidats, classifieurs, etc.). 


Dans ce sens, les corpus électroniques lisibles par la machine offrent 
aux terminologues une grande quantité de matériel pour leur travail 
terminographique. Les avantages sont axés sur une réduction du travail 
manuel humain, une meilleure gestion de la terminologie et la pos- 
sibilité d'adapter les applications terminologiques selon les besoins 
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spécifiques des utilisateurs. En outre, cette méthodologie facilite éga- 
lement les analyses contrastives, par exemple focalisées sur le chan- 
gement de signification des termes en fonction du contexte ou sur leur 
variation diachronique. 

À ce propos, L'Homme (2006) explique qu'au Canada, deux 
groupes de recherche placent la terminologie dans un paradigme basé 
sur le corpus. L'approche conceptuelle basée sur le corpus de l'Uni- 
versité d'Ottawa et l'approche lexico-sémantique basée sur le cor- 
pus établie par l'Observatoire de linguistique Sens-Texte (OLSTy* 
de l'Université de Montréal profitent de la dimension informatique 
(outils et applications) et de la disponibilité de corpus électroniques 
pour mener des recherches en terminologie. En particulier, l'approche 
lexico-sémantique proposée par L'Homme (2006) se concentre sur les 
propriétés linguistiques du terme, abandonnant la perspective concep- 
tuelle au profit de la dimension sémasiologique promue en lexicogra- 
phie. Dans l'introduction de sa récente publication, l'auteure explique 
les raisons de l'utilité d'adopter une approche lexico-sémantique pour 
l'étude de la terminologie, en soulignant que : 


lexical semantics and terminology have much in common, since both disciplines 
aim to answer questions about the nature of words, word content (i.e. the nature 
of meaning), the relationship between word content and our construal of reality, 
and relations between words and word meanings (UHomme, 2020, p. 1). 


Une attention particulière est également portée sur la Sémantique des 
cadres (Fillmore, 1976) en tant que modèle théorique permettant de 
répondre à certaines questions concernant les propriétés linguistiques 
des termes (L'Homme, 2020, p. 43—50). En outre, sa pertinence dans le 
contexte de la terminologie a conduit à la proposition d'une approche 
cognitive de la terminologie appelée Frame-based Terminology — met- 
tant en œuvre les principes de la Sémantique des cadres — développée 
par Pamela Faber et ses collégues à l'Université de Grenade (Faber, 
2012 ; Faber, 2015). 

La dernière approche à la terminologie envisagée dans cet aperçu 
découle des efforts menés par l'équipe Condillac’, groupe de recherche 


36 http://olst.ling.umontreal.ca. 
37 http://new.condillac.org 
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pluridisciplinaire qui rassemble des chercheurs de différentes institu- 
tions, et qui centre ses études sur la combinaison entre ontologie et 
terminologie. Le paradigme, défini par Christophe Roche sous le nom 
d'« ontoterminologie », naît de la volonté de réconcilier et, en même 
temps, distinguer la double dimension conceptuelle et linguistique de 
la terminologie (Costa, 2013 ; Roche, 2012, 2015). L'onterminologie est 
une "terminology whose conceptual system is a formal ontology relying 
on epistemological principles" (Roche et al., 2009) et reconnaît la 
conceptualisation d'un domaine comme le point de départ de tout projet 
terminologique. Comme la théorie générale de la terminologie, l'onto- 
terminologie est basée sur une approche onomasiologique : “concepts in 
expert knowledge became the starting point in terminological analysis" 
(Roche, 2012). En ce sens, l'approche se distingue d'autres méthodes 
orientées vers l'implémentation des ontologies, comme la « termon- 
tographie » — issue de l'approche sociocognitive de la terminologie 
(Temmerman, 2000) — qui reste de nature sémasiologique : “terms (lin- 
guistic expressions) in texts became the starting point in terminological 
analysis" (Temmerman et Kerremans, 2003). 

Le niveau conceptuel de la terminologie est donc séparé de sa 
dimension linguistique. La premiére dimension est représentée par 
l'ontologie formelle, c'est-à-dire la représentation informatique du sys- 
téme conceptuel d'un domaine élaboré gráce à des outils d'ingénierie 
informatique. La dimension linguistique est plutót composée de termes 
liés entre eux par des relations linguistiques-sémantiques, telles que 
l'hyponymie, l'hyperonymie, la synonymie. En conséquence, les défi- 
nitions ontologiques (Roche, 2015), qui renvoient à des spécifications 
logiques du concept, doivent étre distinguées des définitions termino- 
logiques qui sont des explications linguistiques. Comme on peut le voir 


38 Leterme « ontologie » surgit en référence à une branche de la philosophie qui se 
concentre sur l'étude de l'étre. A partir de la fin du XX siècle, le terme acquiert 
un nouveau róle dans les domaines de l'informatique, de l'intelligence artificielle 
et de l'ingénierie des connaissances. Lorsqu'elle est utilisée dans le contexte 
de la recherche en terminologie, l'ontologie acquiert le sens de “formal explicit 
specification of a shared conceptualization", telle que définie par Studer et al. 
(1998) pour le domaine de l'ingénierie des connaissances. 
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Linguistics Theory of Knowledge 


A double semantic triangle 


Image 2.1 — Le double triangle sémiotique 


dans l'image 2.1°°, l'ontoterminologie propose donc un nouveau para- 
digme qui distingue et relie les deux systèmes sémiotiques (linguistique 
et conceptuel) qui composent chaque terminologie tout en conservant 
leurs identités et leurs différences fondamentales. L'approche insiste sur 
l'importance des principes épistémologiques qui régissent la concep- 
tualisation d'un domaine, ainsi que sur l'importance d'une approche 
scientifique de la terminologie dans laquelle l'expert joue un róle fon- 
damental. Une meilleure connaissance du systéme conceptuel favorise 
une approche onomasiologique, dans laquelle la connaissance et la 
compréhension des concepts parviennent à identifier les termes les plus 
appropriés pour les désigner et, par conséquent, à établir la terminolo- 
gie la plus efficace et la plus rigoureuse d'un domaine spécialisé : 


like classical terminology, ontoterminology enables standardisation of lan- 
guage. But unlike classical terminology ontoterminology preserves the diversity 
of language between diflerent communities of practice since they share the same 
domain and standardised conceptualisation (Roche, 2012). 


L'ontoterminologie traduit donc la nécessité de replacer le concept et 
sa désignation au centre de la terminologie, en préservant également sa 
dimension sociolinguistique. 


39 L'image est tirée de l’article Roche (2012) disponible en ligne au lien sui- 
vant : http://www.lrec-conf.org/proceedings/lrec2012/pdf/567 Paper.pdf. 
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2.2 Travail terminologique numérique 


L'éventail des théories et des approches existant actuellement en termi- 
nologie constitue les bases de connaissances pour pouvoir entreprendre 
le travail terminologique numérique. Dans cet ouvrage, nous adoptons 
le postulat théorique, décrit à la fin de la section précédente, selon 
lequel la Terminologie est une discipline ayant une double dimension 
d'analyse, linguistique et conceptuelle, indispensable pour le travail 
terminologique (Costa, 2013 ; Roche, 2015 ; Santos et Costa, 2015). En 
reprenant la norme ISO 1087-1 (2019), le « travail terminologique » est : 


l'activité portant sur la systématisation de la collecte, de la description, du traite- 
ment et de la présentation des concepts et de leurs désignations. 


Dans une note du méme article, la norme explique également que « le 
travail terminologique vise souvent à créer et à tenir à jour des res- 
sources terminologiques » conduisant ainsi à la notion de « termino- 
graphie » introduite au chapitre 1. Dans cette perspective, par « travail 
terminologique numérique », nous entendons l'ensemble des activités 
visant à la représentation numérique de la dimension conceptuelle et 
linguistique de la terminologie d'un secteur donné de connaissances 
spécialisées au sein d'une ressource terminologique. 

Selon la prémisse théorique susmentionnée, le terminologue 
numérique doit lier et maximiser à la fois la perspective conceptuelle 
et la perspective linguistique pour représenter efficacement la connais- 
sance d'un domaine spécifique au sein d'une ressource terminologique 
numérique. Pour ce faire, le « concept » et le « terme » doivent être 
considérés comme deux entités autonomes qui sont pourtant interdé- 
pendantes dans le travail terminologique (Silva, 2014) : le premier per- 
met de conceptualiser le monde, alors que le dernier nous permet de 
parler de cette conceptualisation et de la partager avec d'autres étres 
humains. La double dimension implique que tant les conceptualisations 
des experts sur un sujet donné que leurs discours doivent être considé- 
rés et interreliés dans le travail terminologique (Carvalho et al., 2016). 
En ce sens, le travail terminologique numérique repose sur le bénéfice 
mutuel tiré de l'adoption d'une approche complémentaire combinant la 
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perspective onomasiologique (du concept au terme) et sémasiologique 
(du terme au concept) de la terminologie : 


the semasiological and onomasiological approaches are two complemen- 
tary terminological methodologies that should be used in the construction of 
knowledge representation tools (Santos et Costa, 2015, p. 153). 


Une fois établie la nécessité d’explorer les deux dimensions d’analyse, 
la question se pose de savoir quelle approche choisir comme point de 
départ. Comme nous l'avons vu dans la section précédente, le point de 
départ, qu'il soit conceptuel ou linguistique, est fortement débattu et 
dépendant du modèle théorique adopté pour l'analyse terminologique. 
Toutefois, l'étude de Santos et Costa (2015, p. 177) montre que : 


for knowledge representation purposes, it would be therefore convenient to 
depart from an onomasiological approach, followed by the semasiological 
approach to confirm the representation of conceptualizations. 


Pour la construction de ressources terminologiques pour la représen- 
tation des connaissances, le terminologue numérique devrait donc 
adopter comme point de départ une approche basée sur les concepts 
(onomasiologique), suivie d'une approche basée sur le corpus (séma- 
siologique). En tout état de cause, quel que soit le point de départ choisi 
qui peut varier selon la finalité sous-jacente à la réalisation de la res- 
source, il est nécessaire d'explorer et d'intégrer les deux dimensions 
d'analyse (conceptuelle et linguistique) afin de maximiser le bénéfice 
découlant de leur interrelation. Selon l'étude de Costa (2013), en effet, 
si l'on choisit d'analyser le concept sans prendre en compte le terme, le 
domaine scientifique sous-jacent à l'analyse n'est plus de la Terminolo- 
gie, mais de l'Ingénierie des connaissances. À son tour, se concentrer 
sur le terme tout en faisant abstraction du concept n'est pas, encore une 
fois, de la Terminologie, mais de la Lexicographie spécialisée. 


2.2.1 Dimension conceptuelle 


Que signifie analyser la dimension conceptuelle de la terminologie ? 
Comme mentionné précédemment, la méthodologie d'analyse onoma- 
siologique impose au terminologue d'identifier, de délimiter et de définir 
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les concepts d’un secteur donné de connaissances spécialisées afin de 
constituer un système conceptuel dans lequel les concepts sont organi- 
sés et classés sur la base de leurs relations. Le système conceptuel se 
présente sous la forme d’une carte (ou schéma) conceptuelle obtenue 
à l'aide de supports de représentation graphique tels que CmapTools*, 
un logiciel de cartographie conceptuelle gratuit développé par le Flo- 
rida Institute for Human and Machine Cognition (IHMC). Le système 
conceptuel montre donc comment les concepts sont liés les uns aux 
autres. En particulier : 


the most frequently used conceptual relations are is a and part. of, correspon- 
ding to generic and partitive hierarchical relations. The part. of relation is also 
known as a part-whole relation and is classified as a mereology relation based 
on axioms (Santos et Costa, 2015, p. 164). 


Ces types de relations permettent donc de représenter la structure hié- 
rarchique d'un systéme conceptuel. En outre, un schéma conceptuel 
peut également inclure des indications sur les caractéristiques essen- 
tielles et distinctives d'un concept‘. La production d'un tel schéma 
nécessite une analyse minutieuse des propriétés des concepts et com- 
ment ceux-ci sont liés les uns aux autres. Le terminologue est donc 
amené à se familiariser (et souvent à acquérir) avec les connaissances 
spécialisées du domaine de travail en consultant des sources fiables qui 
contribuent au processus de cartographie. Il est également important 
de souligner le róle que jouent les experts du domaine dans l'analyse de 
la dimension conceptuelle. En effet, they are the entity that possesses 
domain knowledge (Santos et Costa, 2015) : la collaboration entre les 
experts du domaine et le terminologue est configurée comme un scéna- 
rio optimal pour valider la qualité des données conceptuelles obtenues 
dans ce processus d'analyse (Costa et al., 2012). 


40  https://cmap.ihmc.us. 

41 Selon la norme ISO 1087-1 (2019), la caractéristique essentielle est une « carac- 
téristique d'un concept qui est indispensable pour comprendre ce concept », et 
la caractéristique distinctive est un type de « caractéristique essentielle utilisée 
pour distinguer un concept d'autres concepts associés ». 
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2.2.2 Dimension linguistique 


La dimension linguistique vise plutôt l'analyse des textes spécialisés 
considérés comme représentatifs de la knowledge in action (Santos et 
Costa, 2015). En termes de complémentarité, si d’une part, on analyse la 
conceptualisation des savoirs spécialisés, d’autre part, on se concentre 
sur la représentation linguistique de la même conceptualisation. Les 
textes spécialisés sont l'environnement naturel pour l'identification des 
termes utilisés par les experts pour désigner les concepts objet d'ana- 
lyse du domaine de travail. En effet, les textes apparaissent comme le 
principal véhicule pour représenter, structurer et diffuser les connais- 
sances : 


the text is the most efficient means for experts to communicate with the members 
of their professional community. The text is the place of discussion and the place 
of organization of ideas; it is the place of construction and deconstruction, but 
also the place of the uncertain and the polemic (Santos et Costa, 2015, p. 158). 


Les textes constituent donc une ressource précieuse pour le termino- 
logue et le terrain où 1l est possible d'identifier les réseaux lexicaux 
qui devraient refléter autant que possible l'organisation conceptuelle 
du domaine. En ce sens, le travail du terminologue est orienté vers la 
collection de textes spécialisés, constituant un corpus de travail (mono- 
lingue ou multilingue selon les finalités du projet) représentatif du 
domaine analysé“. Par la suite, à l'aide d'outils automatiques ou semi- 
automatiques d'extraction de candidats termes à partir d'un corpus 
électronique“, les termes pertinents pour le domaine de travail donné 
sont identifiés. Dans le but de représenter la dimension linguistique 
de la connaissance spécialisée, le terminologue est donc chargé de la 
constitution de réseaux lexicaux où les termes sont liés entre eux par 
des relations sémantiques de type hiérarchique, associatif et/ou d'équi- 
valence (Clarke, 2001). 

À ce stade, les efforts du terminologue sont orientés vers l'inter- 
relation entre les deux systémes sémiotiques. Cette táche consiste en 


42 Sur la notion de représentativité du corpus, le lecteur est renvoyé à la publication 
suivante : Costa et Silva (2008). 
43 Voir par exemple les outils décrits dans la section 1.1.2 du chapitre précédent. 
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la cartographie et l'intégration des informations obtenues à la fois à 
partir de la représentation conceptuelle et linguistique de la connais- 
sance spécialisée. Le cadre conceptuel et les réseaux lexicaux doivent 
donc être analysés afin de relier les termes à leurs concepts respectifs. 
Cette cartographie permet d'intégrer mutuellement les informations 
obtenues à partir des deux dimensions d'analyse afin d'assurer la sys- 
tématisation de la représentation et de l'organisation des connaissances 
du domaine de travail. Dans le cas d'une représentation multilingue, 
tous les réseaux lexicaux produits pour les langues de travail seront 
soumis à la cartographie conceptuelle qui, en ce sens, est considérée 
comme une entité indépendante de la langue. L'objectif, bien que sou- 
haitable, n'est donc pas d'atteindre un chevauchement parfait entre les 
deux dimensions (conceptuelle et linguistique), mais plutót de tirer le 
bénéfice de leur intégration en termes de représentation exhaustive des 
connaissances d'un secteur de spécialité. 


2.3 Conclusion 


Ce chapitre a été consacré à retracer les différentes théories et approches 
de la discipline terminologique. Il est important de noter que, à notre 
avis, quels que soient le modele théorique adopté et le point de départ 
choisi, les notions présentées ici servent de fondements pour pouvoir 
représenter la terminologie d'un secteur de spécialité donné. En parti- 
culier, nous avons décrit — sans privilégier un domaine particulier — les 
étapes du travail terminologique préalables aux phases de conception 
et d'implémentation d'une ressource terminologique. Dans ce contexte, 
l'exploration de la relation entre la dimension conceptuelle et linguis- 
tique de la terminologie constitue l'essence du travail terminologique : 


it is in the relationship between what is designated and the designation that we 
can find the essence of terminological work (Santos et Costa, 2015, p. 159). 


À ce stade, une fois ce travail réalisé, le terminologue numérique se 
charge de collecter et de représenter les données de type conceptuel et 
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linguistique obtenues au sein d’une ressource numérique. Le chapitre 
suivant abordera les principes de conception d’une base de données 
terminologique représentant les deux dimensions de la terminologie et 
répondant aux besoins définis au chapitre 1 pour la curation optimale 
des données terminologiques numériques. 


3 Conception d’une ressource terminologique 


C'était comme un monde nouveau ouvert à moi, 
le monde de la science, que je pouvais enfin connaítre en toute liberté. 


Marie Sktodowska-Curie (1867-1934) 


La première étape de la conception d’une ressource terminologique 
consiste à analyser une série d’exigences essentielles à satisfaire à dif- 
férents niveaux. En particulier, l’analyse des exigences envisage 1) ce 
que nous voulons représenter, 2) à qui nous voulons nous adresser et 
3) quelle structure nous voulons attribuer à nos données. 

Le premier point a été schématiquement identifié dans le chapitre 
précédent. La conception d’une ressource, qui prend la forme d’une base 
de données terminologiques, ayant le but de représenter les connais- 
sances spécialisées d'un domaine de travail spécifique, implique un 
travail terminologique préalable visant l'identification et la détermi- 
nation des deux dimensions d'analyse (conceptuelle et linguistique) de 
la terminologie. Ce travail permet d'identifier les éléments d'intérét à 
représenter sous forme numérique dans la base de données (concepts et 
termes) et leurs relations exprimées sous forme de schéma conceptuel 
et de réseaux lexicaux monolingues ou multilingues selon la finalité du 
projet. La deuxième question à se poser concerne l'analyse des besoins 
d'information que l'on veut satisfaire pour une ou plusieurs catégories 
d'utilisateurs de la ressource. Puisque le but du présent ouvrage est de 
fournir des lignes directrices qui peuvent s'adapter à n'importe quel 
domaine de travail, nous n'abordons pas — du moins pour le moment — 
cet aspect qui est fortement lié aux objectifs individuels de chaque projet 
terminologique. Cependant, le chapitre 5 sera consacré à la descrip- 
tion d'une étude de cas visant la conception et l'implémentation d'une 
ressource terminologique pour le domaine médical qui prend le nom 
de TriMED et, à cette occasion, nous décrirons l'analyse des besoins 
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d’information des utilisateurs auxquels nous nous adressons (à savoir les 
patients, les traducteurs et les médecins) afin d’identifier leurs exigences 
informatives et d'y répondre de manière suffisamment exhaustive. 

Le troisième niveau d’analyse envisage une réflexion fondamentale 
sur la structure des données et les métadonnées terminologiques. Comme 
nous l’avons vu au chapitre 1 (section 1.2), l’organisation optimale des 
données de la recherche est configurée comme une étape indispensable 
au progrès de la science ouverte. Dans la lignée de l’idée que le termi- 
nologue numérique est celui qui vise à préserver la valeur de son travail 
et à assurer sa réutilisation secondaire au profit de la communauté scien- 
tifique, la prochaine section sera consacrée à décrire l'application des 
principes FAIR dans le domaine de recherche de la terminologie. Partant 
de cette adaptation, nous proposons le paradigme de la « terminologie 
FAIR » qui se matérialise dans l'application des directives contenues dans 
les trois dernières normes publiées par PISO TC/37 SC 3 pour la gestion 
des ressources terminologiques (à savoir la norme ISO-16642 : 2017%, 
la norme ISO-12620 : 20195, et la norme ISO-30042 : 2019%) afin de 
rendre les (méta)données terminologiques trouvables, accessibles, intero- 
pérables et réutilisables. Enfin, nous décrivons les phases de conception 
d'une ressource terminologique sur la base des principes précités en nous 
concentrant, en particulier, sur le métamodèle structurel à adopter et sur 
la description des catégories de données à représenter. 


3.1 Principes FAIR en terminologie 


Les principes FAIR voient donc le jour dans le but de favoriser l'adop- 
tion d'un ensemble de bonnes pratiques pour l'organisation et la gestion 
optimale des données de la recherche (Wilkinson et al., 2016). Publiés 
en 2016 et devenus le cœur et le moteur de la science ouverte“, ces 


44 https:/www.iso.org/fr/standard/56063.html?browse=tc. 
45 https://www.iso.org/fr/standard/69550.htm1?browse=tc. 
46  https://www.iso.org/fr/standard/62510.html?browse=tc. 
47  https://bit.ly/3FFDMmm. 
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principes se réfèrent aux résultats scientifiques, y compris les données, 
les métadonnées et les flux de travail qui les entourent, et visent à com- 
bler le manque de pratiques amplement partagées, clairement articulées 
et largement applicables concernant la publication des données géné- 
rées par la recherche scientifique lato sensu (Da Silva Santos et al., 
2016). En reprenant la description détaillée de chaque élément fournie 
sur le site de l'initiative GO FAIR*, dans les sections suivantes nous 
retraçons tous les composants nécessaires pour réaliser la FAIRisation 
des données et nous en proposons l'application à la discipline de la 
terminologie. 


3.1.1 Terminologie trouvable 


La premiere étape pour l'élaboration optimale de la terminologie numé- 
rique est de produire de données et de métadonnées terminologiques 
qui soient facilement trouvables, tant pour les humains que pour les 
ordinateurs. La « trouvabilité » est en effet un élément essentiel lorsque 
nous souhaitons un outil disponible, en l'occurrence une ressource ter- 
minologique, qui vise à étre utilisé et partagé par une grande variété 
d'utilisateurs. Afin de répondre à ce principe, les (méta)données termi- 
nologiques doivent : 


T.1 être associées un identifiant unique et persistant ; 
T2 être accompagnées d'une riche description ; 

T3 inclure des références explicites ; 

T4 être indexées dans une ressource consultable. 


Le principe T.1 est le plus important, car les identifiants uniques et per- 
sistants à l'échelle mondiale suppriment toute ambigüité dans la signi- 
fication de données publiées, en attribuant une étiquette exclusive à 
chaque élément des métadonnées et à chaque concept de l'ensemble de 
données. Dans ce contexte, les identifiants prennent la forme de liens 
Internet : par exemple, un Uniform Resource Identifier (URI) qui abou- 
tit souvent à une Uniform Resource Locator (URL) d'une page Web. 
Il existe des répertoires de données qui générent automatiquement 


48  https://www.go-fair.org/fair-principles/. 
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des identifiants uniques et persistants pour les ensembles de données 
déposés. Les identifiants permettent aux ordinateurs d’interpréter les 
données de manière significative dans les étapes de recherche et/ou 
intégration automatique. Dans ce sens, les identifiants sont essentiels à 
l'interopérabilité personne-machine et machine-machine, ce qui est la 
clé de la vision de la science ouverte. 

Lors de l'implémentation de ressources terminologiques numé- 
rique FAIR, les métadonnées peuvent (et devraient) étre accompagnées 
d'une riche description (T.2), y compris des informations descriptives 
sur le contexte, la qualité, l'état et les caractéristiques des données ter- 
minologiques. La conformité à T.2 aide les utilisateurs à désambigüiser 
la signification des données, à les localiser et à augmenter leur réuti- 
lisation. Dans ce contexte, il est important aussi que les métadonnées 
incluent clairement et explicitement l'identifiant des données qu'elles 
décrivent (T.3). L'association entre un fichier de métadonnées et l'en- 
semble de données doit étre explicite, en mentionnant l'identifiant 
unique d'un ensemble de données dans les métadonnées. Enfin, il est 
essentiel que les données de recherche terminologique et les métadon- 
nées associées soient disponibles et indexées sur une ressource consul- 
table en ligne (T.4). 


3.1.2 Terminologie accessible 


La condition préalable de « trouvabilité » est suivie de la nécessité de 
mettre à disposition une terminologie « accessible ». Une fois trouvées 
les données terminologiques en ligne, l'utilisateur doit savoir également 
comment y accéder méme à travers des systémes d'authentification et 
d'autorisation. Ce principe établit que : 


A.l les (méta)données sont récupérables par leur identifiant à Paide 
d’un protocole de communication normalisé ; 

A.ll le protocole est ouvert, gratuit et universellement implémen- 
table ; 

A.1.2 sinécessaire, le protocole permet une procédure d'authentifica- 
tion et d'autorisation ; 

A2 les métadonnées sont accessibles, même lorsque les données ne 
sont plus disponibles. 
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Les données terminologiques et les métadonnées doivent être récupé- 
rables et accessibles via des protocoles de communication standard, 
tels que l’Hypertext Transfer Protocol (HTTP), et elles ne doivent pas 
être mises à disposition uniquement via un logiciel propriétaire (A.1). 
En ce sens, des ressources terminologiques comme, pour ne citer que 
quelques exemples, DiCoInfo? et DicoEnviro? implémentées par le 
groupe de recherche canadien Observatoire de linguistique Sens-Texte 
(OLST)!! de l'Université de Montréal répondent au principe d’« acces- 
sibilité » parce qu'elles sont disponibles sur des pages Web qui sup- 
portent le protocole HTTP. 

Pour maximiser la réutilisation des données, le protocole doit être 
gratuit et ouvert, et donc, implémentable pour faciliter la récupération 
des données (A.1.1). En outre, comme clairement mentionné sur le site 
de l'initiative précitée GO FAIR, le principe A.1.2 est un élément clé, 
mais souvent mal compris, des principes FAIR. Le « A » de l'acronyme 
FAIR ne signifie pas nécessairement ouvert ou gratuit. Cela implique 
plutót de fournir les conditions exactes dans lesquelles les données sont 
accessibles. Par conséquent, même des données protégées et privées 
peuvent étre FAIR. L'implémenteur peut en effet décider de consentir 
l'accés à sa propre base de données terminologique par l'intermédiaire 
de systémes d'authentification ou d'autorisation afin de définir éven- 
tuellement les droits spécifiques de l'utilisateur. 

Enfin, il faut également considérer que la maintenance et la gestion 
des données d'une ressource peuvent avoir un coût élevé qui ne permet 
pas de les stocker indéfiniment. Toutefois, le stockage des métadonnées 
est généralement beaucoup plus facile et moins cher. Par conséquent, 
le principe A.2 stipule que les métadonnées devraient persister méme 
lorsque les données ne sont plus conservées. 


49  http://olst.ling.umontreal.ca/cgi-bin/dicoinfo/search.cgi 
50 http://olst.ling.umontreal.ca/cgi-bin/dicoenviro/search_enviro.cgi. 
51 http://olst.ling.umontreal.ca. 
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3.1.3 Terminologie interopérable 


La mise en œuvre et la maintenance des outils terminologiques sont 
des tâches qui nécessitent beaucoup de ressources, d'énergie et de 
temps disponible (Warburton, 2015). Au fil du temps, il se peut que 
les données terminologiques doivent étre intégrées à d'autres données 
ou interagir avec différentes applications afin d'en assurer l'analyse, le 
stockage et le traitement. Dans ce contexte, la notion d'« interopérabi- 
lité » terminologique acquiert un róle fondamental. Pour que les (méta) 
données terminologiques soient interopérables, elles doivent : 


Ll être exprimées dans un langage formel, accessible et partagé ; 
L2 s'appuyer sur un vocabulaire contrôlé ; 
L3 inclure des références croisées. 


L'exigence exprimée avec le principe I.1 se traduit par le besoin d'avoir 
à disposition des données terminologiques échangeables, interprétables 
et lisibles tant par les personnes, en utilisant un langage partagé, que 
par les machines sans avoir besoin d'algorithmes spécialisés ou conçus 
ad hoc. Vinteropérabilité signifie généralement que chaque système 
informatique connait au moins les formats d'échange de données de 
l'autre systéme. Pour que cela se produise et pour garantir la recherche 
et l'interopérabilité automatiques des ensembles de données, il est 
essentiel d'utiliser 1) des vocabulaires contrólés, des ontologies, des 
thésaurus (ayant des identifiants uniques et persistants) (1.2), et (2) un 
métamodèle de données, c'est-à-dire un cadre bien défini pour décrire 
et structurer les données terminologiques. Enfin, les (méta)données 
doivent inclure des références croisées à d'autres (méta)données (1.3). Le 
but est donc de formuler des liens significatifs entre les (méta)ressources 
de données pour enrichir les connaissances contextuelles sur les don- 
nées. Concrètement, il faut spécifier si 1) un ensemble de données s'ap- 
puie sur un autre ensemble de données, 2) des ensembles de données, 
supplémentaires sont nécessaires pour compléter les données, ou 3) des 
informations complémentaires sont stockées dans un autre ensemble 
de données. 
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3.1.4 Terminologie réutilisable 


L'objectif ultime des principes FAIR est d'optimiser la « réutilisation » 
des données. Dans le contexte terminologique, cette notion est étroi- 
tement liée au besoin d'échange (importation et/ou exportation) de 
données terminologiques. Afin de garantir la disponibilité d'une termi- 
nologie réutilisable, les métadonnées et les données doivent étre : 


R.1 décrites avec une pluralité d'attributs précis et pertinents ; 
R.1.1 publiées avec une licence d'utilisation claire et accessible ; 
R.1.2 associées à la description de leur provenance ; 

R.1.3 organisées selon les normes internationales. 


Dans ce contexte, le terminographe qui souhaite mettre à disposition 
des données terminologiques réutilisables doit fournir non seulement 
des métadonnées qui permettent leur trouvabilité, mais également des 
métadonnées qui décrivent de manière détaillée le contexte dans lequel 
les données ont été générées (R.1). Cela peut inclure, par exemple, la 
description 1) de l'objectif pour lequel les données (ou plus générale- 
ment la ressource terminologique) ont été générées ou collectées, 2) de 
toute particularité ou limitation des données dont les autres utilisateurs 
devraient étre conscients, 3) de la date et l'auteur de génération/collecte 
des données, etc. En outre, le principe R.1.1 concerne les droits d'uti- 
lisation que l'implémenteur accorde aux données terminologiques. Ce 
critére devrait étre décrit clairement afin d'éviter que l'ambigüité sur ce 
sujet puisse limiter considérablement la réutilisation des données par 
n'importe quel organisme ou individu. La description de la provenance 
des données est un autre critère qui en garantit la réutilisation (R.1.2). 
Le terminographe doit donc répondre aux questions suivantes : qui a 
généré ou collecté les données ? Comment ont-elles été traitées ? La 
ressource contient-elle des données extraites d'autres sources ? Enfin, 
pour assurer la réutilisation (et pas seulement) des données terminolo- 
giques, le critére R.1.3 déclare expressément la nécessité d'organiser 
les données selon les normes existantes en la matiére. Cette exigence, 
sur laquelle repose la modélisation conceptuelle proposée aux sections 
suivantes, découle de l'idée que des données ayant une structure simi- 
laire ou identique peuvent « collaborer » pour différentes applications 
et donc être gérées de manière optimale. 


68 Conception d'une ressource terminologique 


3.2 Paradigme de la « terminologie FAIR » 


Les principes FAIR décrits jusqu’à présent et dont nous avons proposé 
une adaptation en terminologie n’ont pas le statut de normes officielles 
(Mons et al., 2017). Cependant, leur mise en œuvre dans le cadre de la 
terminologie numérique peut être favorisée par le biais de l’adoption de 
normes [SO pour la conception et la gestion de ressources terminolo- 
giques. 

Nous introduisons donc le paradigme de la « terminologie FAIR » 
qui se traduit par la mise au point d’un flux de travail terminologique 
numérique afin de fournir une structure de données qui respecte les 
besoins de trouvabilité, d'accessibilité, d’interopérabilité et de réutili- 
sabilité. Le paradigme se matérialise dans l’application des directives 
contenues dans les trois dernières normes publiées par PISO TC/37 SC 
3 pour la gestion des ressources terminologiques. En particulier, nous 
nous référons à : 


1. la norme ISO-16642 : 2017? qui définit le métamodele structu- 
rel abstrait Terminological Markup Framework (TMF) pour la 
représentation de ressources terminologiques afin de favoriser 
leur interopérabilité ; 

2. la norme ISO-12620 : 2019? qui définit les propriétés des caté- 
gories de données et leur documentation dans un répertoire 
ouvert qui garantit leur trouvabilité et leur accessibilité ; 

3. la norme ISO-30042 : 2019%* qui définit le format de représen- 
tation TermBase eXchange (TBX) spécifiquement conçu pour 
l'échange et, par conséquent, la réutilisation des données ter- 
minologiques. 


La combinaison de ces normes constitue la réalisation du paradigme 
de la « terminologie FAIR ». L'approche proposée s'adresse à tout/e 
terminologue/terminographe expert/e qui veut concevoir une ressource 


52  https://www.iso.org/fr/standard/56063.html?browse=tc. 
53 https://www.iso.org/fr/standard/69550.htm1?browse=tc. 
54 https://www.iso.org/fr/standard/62510.html?browse-tc. 
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terminologique numérique, indépendamment du domaine de tra- 
vail : cette modélisation est donc applicable à tout projet terminolo- 
gique visant à mettre à la disposition de la communauté des données 
terminologiques numériques FAIR. Dans les sections suivantes de ce 
chapitre, nous traitons de la description des deux premières normes, 
car elles nous permettent de poser les bases de la conception d’une res- 
source terminologique correspondant au paradigme susmentionné. La 
première section du chapitre 4 vise plutôt la description de la dernière 
norme citée en tant que section de l’ouvrage consacrée aux formats de 
représentation pour l’implémentation de la ressource“. 


3.3 Modélisation conceptuelle de la ressource 


Une fois l’analyse préliminaire des exigences réalisée, la conception 
d’une base de données terminologique commence dès la phase de 
modélisation conceptuelle. La « modélisation conceptuelle » d’une 
base de données est un type de représentation de haut niveau des don- 
nées qui permet de définir les objets d’intérêt, leurs propriétés et les 
relations entre ces objets*. La modélisation conceptuelle se positionne 
donc au niveau de la conception abstraite et est indépendante de toute 
implémentation spécifique : 


55 A cet égard, nous précisons que les descriptions fournies dans les pages sui- 
vantes ne visent pas à se substituer aux trois normes en question. Notre objectif 
est de fournir une vue d'ensemble afin d'argumenter la proposition du paradigme 
de la « terminologie FAIR ». En ce sens, pour tous ceux qui souhaitent concevoir 
et implémenter une ressource numérique selon les prémisses développées, nous 
renvoyons à la consultation des trois versions officielles des normes précitées. 

56 En ce sens, il est important de préciser que le terme « modélisation concep- 
tuelle » utilisé en informatique ne fait référence ni à la dimension conceptuelle 
ni à la carte conceptuelle précédemment décrites en référence à la discipline de 
la terminologie. Nous utilisons donc ce terme dans son acception généralement 
acceptée dans le cadre de la conception d'une base de données. 
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The purpose [...] is to represent the informal requirements of an application 
in terms of a formal and complete description, but independent of the criteria 
for representation used in database management systems (Atzeni et al., 1999, 
p. 160). 


Afin de modéliser conceptuellement une base de données, il existe dif- 
férents schémas dans la littérature qui permettent de représenter gra- 
phiquement les objets d'intérét de la ressource”. Dans ce chapitre, nous 
nous référons au schéma entité-association en tant que modèle large- 
ment utilisé pour la représentation de base de données. 


3.3.1 Schéma entité-association 


Le modèle entité-association est un modèle conceptuel utilisé pour la 
conception d'applications de bases de données relationnelles congu 
par Chen (1976). Ce modéle propose un ensemble d'éléments qui per- 
mettent de décrire les objets d'intérét de la ressource. Cette description 
passe par la réalisation d'un schéma - le schéma entité-association — 
dont les éléments de base sont : 


l. lesentités ; 
2. les propriétés ; 
3. les associations. 


L'élément « entité » représente l'ensemble des objets d'intérét qui ont 
des « propriétés » (ou attributs) communes. Lx association » représente 
plutót un lien logique entre plusieurs entités. 

Dans le cas d'un projet de terminologie numérique visant la repré- 
sentation conceptuelle et linguistique de la connaissance spécialisée 
d'un domaine de travail donné, nous avons vu, dans la section 2.2, que 
les entités de base d'intérét sont donc 1) les concepts, 2) les termes qui 
les désignent et 3) les langues de travail envisagées. Les associations 
sont plutót les relations préalablement identifiées entre l'entité-concept 
et l'entité-terme au moyen d'une langue de travail donnée. Enfin, les 
propriétés sont les caractéristiques propres à chaque entité dont les 
valeurs varient selon l'objet spécifique observé. 


57  https://www.sciencedirect.com/topics/computer-science/conceptual-modelling. 
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Dans l’image 3.1, nous illustrons un exemple de schéma entité- 
association pour une ressource terminologique. Le schéma est composé 
de trois entités — représentées par des rectangles — reliées entre elles 
par des associations sous forme graphique de losanges. Le couple de 
nombres — appelé cardinalité — présent sur chaque segment qui lie les 
entités aux associations représente respectivement le nombre minimum 
et le nombre maximum d'objets pouvant étre liés entre les entités impli- 
quées. Chaque entité a des propriétés : l'entité-concept a la propriété 
« identifiant » qui représente une valeur unique qui distingue chaque 
objet de cette entité ; l’entité-langue a la propriété « code ISO »*% qui 
identifie les objets de cette entité et une propriété « nom » qui dénomme 
la langue ; l'entité-terme a une propriété « identifiant » qui, comme 
pour l'entité-concept et l'entité-langue, représente une valeur unique et 
une propriété « désignation » qui représente la séquence de caractères 
qui fait référence au terme. Comme on peut le voir sur l’image, les pro- 
priétés « identifiant » des trois entités sont marquées d'un cercle plein 
faisant référence aux valeurs uniques et distinctives de chaque élément 
de l'entité. Alors que les propriétés marquées d'un cercle vide — « nom » 
pour l'entité-langue et « désignation » pour l'entité-terme — indiquent 
tous les attributs n'ayant pas pour objectif d'identifier de manière 
unique l'objet de l'entité impliquée”. 


58 On fait référence ici à la norme ISO 639 : https://www.iso.org/iso-639-language- 
codes.html. 

59 Considérons, par exemple, le cas de deux termes ayant la méme séquence gra- 
phique de caractéres, mais des identifiants différents, et désignant deux concepts 
différents. 
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identifiant identifiant désignation 
CONCEPT = L—(1,n)— désigné —— (1,1) — TERME 
(1n) 
(On) 
(0, n) — LANGUE 
code ISO nom 


Image 3.1 — Exemple schéma entité-association 


L'exemple en question montre un type de schéma ayant des cardi- 
nalités selon lesquelles : 


— chaque objet de l'entité-concept est exprimé par au moins une 
langue et au plus un nombre générique n de langues. Le méme 
objet est désigné par au moins un couple terme-langue et au plus n 
couples terme-langue ; 

— chaque objet de l’entité-langue peut exprimer de 0 à n concepts 
et peut étre lié à un nombre de couples terme-concept allant d'un 
minimum de 0 à un maximum de n ; 

— chaque objet de l'entité-terme ne désigne qu'un concept pour une 
langue donnée. 


Cet exemple représente une situation possible dans laquelle le termi- 
nologue qui conçoit la base de données veut exprimer le fait que : étant 
donné un concept, celui-ci ne peut exister que si 1) il est exprimé par une 
langue et 2) il a aussi au moins un terme qui le désigne. En méme temps, 
une langue existe indépendamment du fait qu'elle exprime un concept : en 
ce sens, le terminologue vise à sauvegarder potentiellement toutes les lan- 
gues connues et identifiées par un code ISO dans la base de données, sans 
nécessairement avoir de concepts liés. Pour la méme raison, la langue qui 
n'exprime aucun concept dans la base de données n'a pas aucun terme 
associé. Enfin, étant donné un terme identifié de maniére univoque, un 
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seul couple concept-langue associé doit exister. Cette structure permet 
d'insérer plusieurs termes avec la même séquence de caractères mais 
qui, étant identifiés différemment (en d’autres termes, ayant des attributs 
«identifiant » différents), peuvent renvoyer à des concepts différents. 
Ceci, comme nous l'avons dit, peut être un exemple possible d'un 
monde d'intérét à représenter. En changeant les exigences de la base 
de données que nous voulons modéliser, nous pourrions construire un 
monde d’intérêt différent à partir du même schéma mais avec des cardina- 
lités différentes. Par exemple, on pourrait dire qu'une langue dans la base 
de données n'existe que si 1) elle exprime au moins un concept (1, n vers 
l'association « exprimé ») et 2) elle est liée à au moins un terme (1, 7 vers 
l'association « désigné »). Encore une fois comme exemple alternatif, on 
pourrait choisir une prémisse théorique selon laquelle un concept existe 
indépendamment du fait qu'il peut être exprimé par une langue et peut 
être désigné par un terme, et choisir donc une cardinalité 0, n vers l'asso- 
ciation « exprimé » et une cardinalité 0, n vers l'association « désigné ». 
En guise de conclusion, la réflexion sur cet exemple sert à faire com- 
prendre au lecteur que la modélisation conceptuelle et le schéma entité- 
association ne visent pas à représenter toutes les combinaisons possibles 
de tous les mondes possibles. Ces modèles servent plutôt à représenter 
un monde d'intérét particulier avec un certain ensemble d'exigences pré- 
alablement identifiées sur la base des prémisses théoriques adoptées. En 
outre, il est important de souligner que la phase de conception décrite 
ci-dessus peut être adaptée à la mise en œuvre de tout type de base de 
données. Or, il semble légitime de se demander ce dont nous disposons 
en terminologie du point de vue de la modélisation conceptuelle. Dans 
la section suivante, nous illustrons la norme ISO-16642 : 2017 qui décrit 
un métamodèle structurel spécifiquement conçu pour la représentation 
d'objets d'intérét au sein d'une base de données de type terminologique. 


3.3.2 Métamodèle structurel Terminological Markup Framework 


La norme ISO-16642 : 2017 définit un métamodele structurel abs- 
trait — à savoir le Terminological Markup Framework (TMF) — pour la 


60  https://www.iso.org/fr/standard/56063.html?browse=tc. 
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représentation de collections de données terminologiques. Cette norme 
acquiert un rôle important dans la réalisation du travail du termino- 
logue numérique pour deux raisons principales : 


1. la première est que les lignes directrices fournies permettent 
de modéliser conceptuellement les entités, les propriétés et les 
associations à représenter au sein d’une ressource terminolo- 
gique ; 

2. la seconde est que l’adoption répandue de cette norme pour 
la conception des ressources permet d’assurer leur interopé- 
rabilité en privilégiant, en ce sens, la mise en œuvre d’un des 
critères préalablement établis à travers la formulation du para- 
digme de la « terminologie FAIR ». 


En général, l'interopérabilité entre ressources terminologiques pour- 
rait étre définie comme une sorte de cohérence structurelle, afin que 
chaque systéme ne puisse entrainer d'incohérences internes ni d'in- 
compatibilité avec d’autres systèmes (Lee et Romary, 2010). Appli- 
quée à la conception et l'implémentation des ressources linguistiques, 
Pinteropérabilité se traduit donc par une exigence de base au niveau 
structurel des ressources : pour qu'ils « collaborent », ces outils doivent 
partager le méme métamodèle structurel. Par exemple, la structure 
de base d'une ressource lexicographique prévoit qu'une entrée lexi- 
cographique contienne un lemme (la forme base d'une unité lexicale) 
et une ou plusieurs définitions (représentant différentes significations) 
dans une ou plusieurs langues. En revanche, une ressource terminolo- 
gique exige qu'une entrée terminologique désigne un concept dans une 
langue donnée et, dans le cas d'entrées terminologiques multilingues, à 
un ou plusieurs concepts totalement ou partiellement équivalents dans 
une ou plusieurs langues. Pour ces deux types de représentations for- 
melles, il y a en fait deux normes différentes : d'une part, la norme ISO 
24613-1 : 2019 qui définit le cadre de balisage lexical Lexical Markup 
Framework (LMF)* pour la conception de ressources de type lexico- 
graphique ; d'autre part, la norme ISO 16642 : 2017 — objet d'intérét de 
cette section — qui définit le cadre de balisage Terminological Markup 


61  https://www.iso.org/fr/standard/68516.html?browse-tc. 
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Framework (TMF) pour la conception de ressources terminologiques. 
Comme l'affirment Romary et al. (2006, p. 3) : 


né d'une volonté de définir une plate-forme unifiée de spécification et de repré- 
sentation de données terminologiques multilingues, le Terminological Markup 
Framework (TMF, [ISO 16642]) permet ainsi de décrire des méta-contraintes 
pour le marquage terminologique, c’est-à-dire des contraintes structurelles 
minimales auxquelles doit répondre tout langage de représentation de données 
terminographiques. 


Le TMF définit donc des mécanismes décrivant les contraintes inhé- 
rentes à une représentation donnée, faisant abstraction du choix expli- 
cite d'implémentation de cette structure. Il s'ensuit que l'ensemble 
des Terminological Markup Languages (TML) exprimés en langage 
XML? — c'est-à-dire l'ensemble des formats compatibles avec la plate- 
forme TMF — peut donc être considéré comme une famille dont les 
conditions d'interopérabilité peuvent être définies de façon rigoureuse 
(Romary, 2001b, p. 83). 

Comme décrit dans la norme ISO-16642 : 2017, le cadre de bali- 
sage terminologique TMF comprend deux niveaux d'abstraction : 


l. le premier niveau est le plus abstrait et concerne le métamodèle 
structurel, indépendant de toute implémentation spécifique, 
qui doit étre partagé par toutes les collections de données ter- 
minologiques (CDT) conformes à la norme ; 

2. ledeuxiéme niveau concerne le modéle de données spécifique 
pour chaque collection qui est utilisé pour représenter les caté- 
gories de données envisagées. 


À ce dernier propos, la norme renvoie à un répertoire de catégories de 
données, DatCatInfo*, qui est une base de données en ligne contenant 
les informations sur les types de données pouvant étre incluses dans les 
CDT et d'autres ressources linguistiques‘. Pour le moment, nous nous 


62 eXtensible Markup Language. 

63 www.datcatinfo.net. 

64 Plus en détail, si aucune catégorie de données appropriée n'est disponible dans 
ce répertoire, les implémenteurs d'un nouveau TML doivent proposer la compi- 
lation d'un nouveau répertoire de données représentatif de leur ressource. 
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Métamodèle TMF 


informations complémentaires 


section de terme 


| section de composant de terme 


Image 3.2 — Le métamodèle TMF 


concentrons sur l'illustration du premier niveau d'abstraction et nous 
renvoyons le lecteur à la section suivante (3.3.3) pour la description de 
la représentation et de la gestion des catégories de données. 

Dans l'image 3.2 nous illustrons les sept instances qui composent 
le médamodèle hiérarchique TMF selon la norme de référence : 


1. Collection de données terminologiques : cette section repré- 
sente le niveau le plus haut du métamodèle en tant que macro- 
conteneur de toutes les informations sur la méme collection. 

2. Informations globales : cette section contient les informations 
sur la collection dans son ensemble (ex. nom de la collection 
et date de la derniére mise à jour). 

3. Informations complémentaires : cette section contient géné- 
ralement des informations de type additionnel (ex. références 
bibliographiques ou administratives). 

4. Entrée terminologique : cette section contient les informations 
descriptives relatives à un seul concept. 
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5. Section de langue : cette section sert de conteneur pour la sec- 
tion de terme qui, dans la langue de travail identifiée, désigne 
le concept ci-dessus. Il existe autant de sections de langue que 
de langues de travail de la collection de données terminolo- 
giques avec lesquelles l’on souhaite exprimer les concepts. 

6. Section de terme : cette section contient le terme qui, pour 
la langue ci-dessus, désigne le concept exprimé dans l’entrée 
terminologique. Il y a autant de sections de termes que de 
termes (synonymes entre eux) qui désignent le concept dans 
cette langue. De plus, la section peut contenir des informa- 
tions relatives au terme lui-même (ex. partie du discours, et/ou 
genre et nombre grammatical). 

7. Section de composant de terme : dans le cas de termes com- 
plexes, par exemple, cette section fournit des informations sur 
chaque composante du terme en question. 


Laissant un instant de cóté les deux instances informationnelles (globale 
et complémentaire) et la dernière instance renvoyant à un niveau de gra- 
nularité d'analyse qui dépasse le cadre de cet ouvrage, on peut résumer 
que : une collection de données terminologiques est une ressource conte- 
nant un nombre générique n d'entrées terminologiques. Chaque entrée 
terminologique fait référence à un et un seul concept. Pour chaque entrée 
terminologique, il y a n sections de langue qui permettent d'exprimer le 
concept. Pour chaque section de langue, il y a sections de terme qui, par 
le biais de cette langue, désignent le concept caractérisant l'entrée termi- 
nologique. Comme nous l'avons vu dans la section précédente, les trois 
entités (concept, langue, terme) et leurs associations sont donc modéli- 
sées de manière abstraite et hiérarchique par le standard TMF. 

Or, comme nous l'avons dit précédemment, le cadre de balisage 
TMF comprend non seulement le métamodèle abstrait, mais égale- 
ment le modéle de données qui décrit l'ensemble des catégories de 
données terminologiques et leurs spécifications pour une ressource 
terminologique donnée. Les catégories de données et leurs spécifica- 
tions concernent ce que nous avons précédemment — dans la descrip- 
tion du schéma entité-association — défini comme « propriété » des 
entités impliquées. Dans ce sens, afin qu'une base de données puisse 
être considérée comme conforme à la norme ISO-16642, elle doit être 
basée sur : 
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l. le métamodèle ; 
2. la spécification de catégories de données, disponibles à partir 
d’un répertoire de données, tel que DatCatInfo. 


La spécification de catégorie de données contient les restrictions sur 
les valeurs autorisées d’une catégorie de données, telles que « chaîne 
de caractères » pour la catégorie /définition/ ou « liste déroulante » 
pour la catégorie /partie du discours/. Les contraintes incluent égale- 
ment les restrictions sur la position d’une catégorie de données dans la 
structure hiérarchique TMF. Par exemple, la catégorie de données /par- 
tie du discours/ peut étre intégrée uniquement — et raisonnablement — 
au niveau de la section de terme. En termes d'interopérabihté entre 
deux TML (transfert bidirectionnel d'informations entre deux systémes 
informatiques), il faut donc comparer deux aspects : la combinaison de 
conformité est nécessaire 1) au métamodèle et 2) aux spécifications de 
catégories de données. Les TML structurés conformément au métamo- 
dele décrit dans cette norme et qui utilisent les mêmes spécifications 
de catégories de données sont dits interopérables. En d'autres termes, 
il sera possible de convertir des données d'un TML vers un autre TML 
sans perte d'informations. 

Une fois que les données terminologiques sont structurées selon 
le métamodéle TMF, nous nous concentrons sur les spécifications des 
catégories de données qui sont nécessaires afin de répondre aux condi- 
tions de conformité décrites précédemment. En termes de complémen- 
tarité, l'ISO-16642 : 2017 fait référence à une autre norme, à savoir 
PISO-12620 : 2019, pour la modélisation des catégories de données et 
de leurs spécifications en tant que propriétés des objets d'intérét, ce qui 
fait l'objet de discussion de la section suivante. 


3.3.3 Catégories de données 


La norme ISO-12620 : 201995 a été formulée dans le but de docu- 
menter, d'harmoniser et de gérer les catégories de données (et leurs 


65 A des fins de cohérence avec les normes, nous utiliserons les barres obliques 
inversées lorsqu'indiquant une catégorie de données. 
66  https://www.iso.org/fr/standard/69550.html?browse=tc. 
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spécifications) utilisées au sein d’une ressource terminologique. Une 
catégorie de données est définie comme une “class of data items that 
are closely related from a formal or semantic point of view” (ISO- 
12620, 2019). Les catégories de données sont donc des classes d'infor- 
mations généralement fournies au sein des ressources et remplissent le 
róle de propriété des entités que l'on veut représenter : par exemple / 
partie du discours/ pour l'entité-terme ou /identifiant de concept/ pour 
l'entité-concept. Comme l'explique la norme en question, ces catégories 
varient selon le type de ressource conçue. À titre d'exemple, la catégo- 
rie de données /nombre de significations/ est typique d'une ressource 
lexicographique et non terminographique. De plus, non seulement les 
catégories de données peuvent varier selon la ressource, mais aussi les 
mêmes valeurs que celles-ci admettent. Reprenant l'exemple fourni par 
la norme : 


for terminology management, only a small set of values are needed for /part of 
speech/ (e.g. noun, verb, adjective, adverb), but in lexicographical resources, 
many additional values are required (e.g. preposition, pronoun, etc.) (ISO- 
12620, 2019). 


En outre, chaque catégorie de données a sa propre spécification 
concue comme une fiche descriptive qui : 


provides the complete and formal representation of a data category (for exa- 
mple, its name, definition, examples, comments, etc.) (ISO-12620, 2019). 


Or, la norme ISO-12620 intervient justement sur la représentation, la 
gestion et l'harmonisation de ces éléments. En particulier, ce document 
vise à promouvoir l'utilisation d'un répertoire de catégories de données 
librement accessible en ligne comme source commune de consultation 
contenant les spécifications des mémes catégories de données afin d'ho- 
mogénéiser leur représentation au sein de différentes ressources termi- 
nologiques. À cet égard, la norme fait référence au répertoire nommé 
DatCatInfo disponible en ligne au lien www.datcatinfo.net. En 2017, ce 
répertoire a remplacé le vieil ISOCAT Data Category Repository décrit 
dans la version précédente de la norme ISO 12620 de 2009 et déve- 
loppé et maintenu sous les auspices de l'ISO TC/37, avec l'Institut Max 
Planck de psycholinguistique de Nimégue, aux Pays-Bas, agissant en 
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Image 3.3 — Exemple de catégorie de données sur DatCatInfo 


tant qu’autorité d’enregistrement (Kemps-Snijders et al., 2008 ; Broe- 
der et al., 2014 ; Windhouwer et Schuurman, 2014). 

Depuis le site DatCatInfo il est possible d'accéder à un large éven- 
tail de spécifications de catégories de données. Le logiciel qui permet 
leur consultation s'appelle TermWeb et, dans l'image 3.3%, nous four- 
nissons une capture d'écran pour la spécification de la catégorie de don- 
nées /définition/. 

Comme l'illustre l'image, les informations contenues dans la fiche 
descriptive servent à désambigüiser et à représenter uniformément la 
catégorie de données : d'une part, la spécification nous fournit des 
informations relatives au nom canonique attribué à la catégorie et à sa 
définition afin de l'interpréter correctement ; d'autre part, des indica- 
tions nous sont fournies pour référencer de maniére unique la catégorie, 
au travers de son identifiant unique et persistant (PID), et pour l'implé- 
menter de manière cohérente parmi les différentes ressources sous la 
forme de chaine de caractéres. 

Les avantages découlant de l'adoption de cette norme par le termi- 
nologue se reflétent dans divers aspects liés à la curation des données 


67 La capture d'écran a été prise le 18/10/2021 à partir de la page Web sui- 
vante : https://datcatinfo.termweb.eu/search/terms/1802101. 
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terminologiques numériques. Premièrement, la norme sensibilise à la 
cohérence de la dénomination des catégories de données (Wright, 2001), 
produisant, par conséquent, un impact en termes de meilleure intero- 
pérabilité entre les ressources terminologiques. Imaginons que nous 
voulions intégrer automatiquement les données de deux ressources 
terminologiques différentes qui présentent toutes deux la catégorie de 
données /définition/. Si le nom de la catégorie est différent (par exemple 
définition d'une part, et déf d'autre part), il serait difficile pour un logi- 
ciel d'interpréter les deux noms comme figurant la même catégorie et 
donc leur intégration ne serait pas automatique, mais demanderait un 
travail chronophage de formulation manuelle de liens entre les deux élé- 
ments. En ce sens, l'adoption du méme nom canonique de la catégorie de 
données et de son interprétation favorise l’interopérabilité des données 
entre différentes ressources. Deuxièmement, la mise à disposition d'un 
répertoire de catégories de données contenant les spécifications permet 
de répondre aux exigences de trouvabilité et d'accessibilité des données. 
Chaque catégorie de données est en effet associée à un identifiant unique 
et persistant, est accompagnée d'une description riche, et est indexée 
au sein d'une ressource consultable. L'accessibilité est garantie à par- 
tir du moment où le PID fourni se présente sous la forme d'une URL 
qui fournit un accès Web direct à la spécification de données dans un 
répertoire en ligne conforme au protocole de communication standard 
HTTP. Enfin, tous ces éléments convergent naturellement pour faciliter 
la réutilisation des catégories de données. Le répertoire disponible sur 
DatCatInfo voit le jour précisément dans le but de fournir à tous les ter- 
minologues en charge de la conception et du développement d'une res- 
source numérique des informations pouvant être réutilisées de manière 
homogène. Il s'ensuit que la combinaison de tous ces éléments permet 
donc de répondre aux besoins préalablement définis à travers la formu- 
lation du paradigme de la « terminologie FAIR ». 

Mais que se passe-t-il si la catégorie de données que nous vou- 
lons représenter dans notre ressource n'est pas disponible sur le réper- 
toire standard ? À cet égard, la norme ISO-12620 prévoit toute une 
section consacrée à la mise en place d'un répertoire sur mesure qui vise 
à documenter uniquement les catégories de données non disponibles 
sur TermWeb ou dans tout autre répertoire. Ce répertoire devra suivre 
des conditions spécifiques afin de garantir également dans ce cas les 
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principes de trouvabilité, d'accessibilité, d'interopérabilité et de réutili- 
sabilité des catégories de données‘. 


3.4 Conclusion 


La conception d'une ressource terminologique numérique implique 
donc une phase d'analyse des besoins répartis à différents niveaux et 
d'un processus de modélisation conceptuelle qui permet de définir les 
objets d'intérét et leurs relations. À partir de la description du modéle 
entité-association, nous avons vu dans ce chapitre comment la norme 
ISO-16642 : 2017 permet de modéliser et d'organiser les entités concept, 
terme et langue, tandis que la norme ISO-12620 : 2019 permet de repré- 
senter et d'harmoniser les propriétés (catégories de données) choisies 
pour chaque entité. 

À ce stade, nous passons au chapitre suivant de la phase de concep- 
tion à la phase d'implémentation de la ressource terminologique. En 
particulier, nous nous concentrons sur la description de la troisiéme 
norme précédemment évoquée, illustrant le format de représentation 
TermBase eXchange (TBX) (ISO-30042, 2019), et identifiée comme 
modèle à suivre afin de favoriser l'adoption d'une approche FAIR de la 
terminologie. Finalement, nous proposons quelques pistes de réflexion 
sur les phases de mise à jour et de publication des données terminolo- 
giques contenues dans une ressource FAIR. 


68 À ce propos, la section 5.5 du chapitre 5 sera consacrée à la description d'un 
répertoire concu spécifiquement pour documenter un petit ensemble de caté- 
gories de données disponibles sur la ressource TriMED en tant qu'étude de cas 
d'application du paradigme de la terminologie FAIR. 


4 Vers l’implémentation d’une ressource 
terminologique 


What I cannot create, I do not understand. 
Richard Feynman (1918-1988) 


Ce chapitre est complémentaire au précédent, car il permet de faire évo- 
luer la réflexion de la phase de conception a la phase d’implémentation 
d’une ressource terminologique. Cependant, une note de clarification 
s'impose à ce stade de l'exposition. Cette partie de l'ouvrage n’a pas 
vocation à prendre en considération tous les aspects liés à l'implémen- 
tation — d’où le choix du titre du chapitre — de la ressource terminolo- 
gique. Notre intérét est plutót orienté vers la description, différemment 
approfondie, de trois aspects spécifiques de ce processus, à savoir : 


1. la phase de représentation des données terminologiques et, 
conformément à ce qui précède, l'illustration d'un format 
standard spécifique qui favorise leur réutilisation ; 

2. la phase d'actualisation (comprenant l'insertion, la modifica- 
tion et la suppression) des données terminologiques contenues 
dans la collection ; 

3. la phase de publication de ces mêmes données au sein d'un 
répertoire existant ou congu ad hoc. 


Or, comme nous le verrons au fil des pages suivantes, si le premier 
aspect reléve des activités propres du terminologue numérique, les 
deux derniers points évoqués ci-dessus concernent plutót de compé- 
tences informatiques qui dépassent le róle préalablement défini pour 
cette figure. Certains aspects du processus d'implémentation néces- 
sitent en effet de la collaboration avec un expert en informatique qui, 
de manière synergique, collabore à la phase finale de mise en œuvre 
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de la base de données numérique. Cette synergie est, à notre avis, un 
nœud crucial caractérisant le travail du terminologue numérique. En 
ce sens, le caractère interdisciplinaire de cette figure implique une 
forte dimension collaborative pour la réalisation optimale du projet de 
recherche. Le volet interdisciplinaire grandement promu ne veut pas 
laisser entendre que le terminologue numérique est contraint de s’ap- 
proprier des compétences de l’informaticien (et/ou vice versa) pour la 
mise en œuvre de la base de données ou, par exemple, de l’expert du 
domaine de travail (le médecin, l'économiste, l'avocat, etc..) dont la ter- 
minologie est à l'étude. L'essence de l'interdisciplinarité évoquée réside 
plutót dans la capacité du terminologue numérique à savoir communi- 
quer et collaborer efficacement avec les experts des autres disciplines 
impliquées et à comprendre leurs besoins et spécificités sectorielles. 

Pour ces raisons, ce chapitre abordera de manière approfondie l'as- 
pect de représentation des données en introduisant la question à travers 
l'illustration d'un scénario qui justifie la nécessité d'adopter un format 
qui assure la réutilisation des données. Par la suite, nous nous concen- 
trons sur le format de représentation TermBase eXchange (TBX) en tant 
que le seule modéle standard congu pour l'échange de données termino- 
logiques, et donc privilégiant les composantes d’interopérabilité et de 
réutilisabilité, telles que définies à travers la formulation du paradigme 
de la « terminologie FAIR » (section 3.2 du chapitre précédent). Enfin, 
nous décrivons de manière plus générique les aspects d'actualisation et 
de publication des données afin de tracer des pistes de réflexion qui font 
l'objet de discussion et d'évaluation en contexte collaboratif. 


4.] Représentation des données terminologiques 


L'implémentation de ressources terminologiques et leur maintenance 
optimale sont des activités laborieuses et chronophages qui nécessitent 
souvent d'investissements économiques substantiels. La préservation 
de ces produits est donc un élément clé à la base de tout projet impli- 
quant leur mise en ceuvre. En ce sens, l'adoption d'un format de repré- 
sentation des données terminologiques qui en garantit leur réutilisation 
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est une pratique essentielle qui guide le travail du terminologue numé- 
rique. 

De nombreux scénarios peuvent se produire où il est nécessaire de 
disposer de données terminologiques structurées et normalisées afin 
de permettre leur exportation et/ou importation (Warburton, 2015). Par 
exemple, en considérant l’environnement commercial, la publication 
récente de Warburton (2021) illustre à cet égard de nombreux principes 
et lignes directrices pour la gestion optimale de la terminologie dans 
le cadre de collaborations avec des entreprises publiques et privées. En 
outre, du côté de la traduction spécialisée, l’étude de Schmitz (2012) 
illustre d'autres cas dans lesquels l'échange de terminologie s’avère être 
une activité fondamentale. Les activités commerciales de traduction 
entre clients et traducteurs freelance demandent parfois un transfert 
de données terminologiques dans les deux sens. Par exemple, dans le 
cas oü une entreprise fournit une terminologie pour soutenir un projet 
de traduction et où les traducteurs renvoient les ressources terminolo- 
giques qui ont été mises à jour pendant le travail de traduction. 

En outre, l'utilisation cohérente de la terminologie dans des projets 
plus importants avec plusieurs traducteurs freelance ne peut être garantie 
que si toutes les personnes impliquées ont accès aux mêmes ressources de 
données terminologiques. Un dernier scénario important mentionné par 
l'auteur pour l'échange de données terminologiques est la migration des 
collections de données terminologiques d'un systéme vers un autre. Cela 
peut étre nécessaire si une entreprise, par exemple, change de fournisseur 
d'outils et doit convertir la terminologie de l'ancien systéme de gestion 
terminologique vers le nouvel outil. En ce sens : 


a simple and easy terminology exchange in all these scenarios can be problematic, 
since the technical requirements for terminology management (languages, data 
categories, data value sets) can be quite diflerent depending on the needs of the 
respective user groups and the organizational environments (Schmitz, 2012, p. 33— 
34). 


Pour ces raisons, de nombreuses normes se sont succédé au fil du temps 
dans le même but de représenter et structurer de manière uniforme les 
données terminologiques contenues dans les ressources afin de per- 
mettre leur importation et/ou exportation. Parmi les formats d'échange 
qui se sont succédé on peut citer, entre autres : le format électronique 
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d'échange terminologique (ETIF) (Melby, 1995), le format lisible par 
machine d'échange terminologique (MARTIF) (Melby et al., 2001), 
et le format TermBase Exchange (TBX) (Melby, 2015)9. Ce dernier — 
dans sa version de 2019 — fait l'objet de discussion de la section suivante 
et est actuellement configuré comme le seul format standard de repré- 
sentation des données qui en assure une réutilisation optimale. 


4.1.1 Format TermBase eXchange 


La norme ISO-30042 : 2019 définit le cadre TBX, exprimé en langage 
de balisage XML, pour l'analyse, la représentation descriptive et la dif- 
fusion de données terminologiques structurées. Dans la vision d'une 
approche FAIR de la terminologie, cette norme est complémentaire 
aux deux normes précédemment mentionnées — relatives au méta- 
modèle TMF (ISO-16642 : 2017) et aux catégories de données (ISO- 
12620 : 2019) — car elle propose des lignes directrices pour la mise en 
ceuvre du format à attribuer aux éléments composant la base de don- 
nées terminologiques. 

Le cadre TBX décrit une famille de formats qui partagent une 
structure de base commune et une gamme limitée de types d'informa- 
tions, à savoir de catégories de données. La combinaison d'une struc- 
ture de base et de modules de catégories de données constitue ce qui, 
dans la norme, est appelé un « dialecte » de TBX. Le site en ligne 
TBXinfo.net” fournit de nombreux exemples pour ceux qui souhaitent 
organiser leurs données en format TBX. Le cadre TBX a pour objec- 
tif principal de garantir que les données terminologiques puissent être 
utilisées dans différents logiciels. Cette séparation entre les données et 
les logiciels offre des avantages pour les activités de formulation et de 
traduction, notamment la protection, la cohérence et l'interopérabilité 
des données. En particulier, comme expliqué dans l'introduction de la 
norme, le format TBX garantit : 1) l'intégration des données provenant 
de sources multiples ; 2) la comparaison du contenu de diverses CDT ; 


69 Pour une étude approfondie à ce propos nous renvoyons le lecteur à la publi- 
cation de Lommel et al. (2014) qui illustre, dans la section 2, l'historique des 
formats d'échange terminologique. 

70 https://www.tbxinfo.net. 
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3) l'interrogation de plusieurs CDT à travers une interface commune ; 
4) la mise en ligne des données et leur téléchargement ; et, enfin, 5) la 
dynamicité de la terminologie qui sera disponible dans les applications 
en réseau par l’intermédiaire d’un service Web. 


4.1.1.1 Dialectes TBX 


La structure du format TBX est constituée de deux composants en inte- 
raction : 


1. une structure de base qui reflète le modèle de données abstrait 
du métamodèle TMF (ISO-16642 : 2017) ; 

2. unformalisme pour définir des modules contenant une liste de 
catégories de données (ISO-12620 : 2019). 


La combinaison de ces deux composants définit un dialecte particu- 
lier, c'est-à-dire un langage de balisage XML conforme à TBX. Les 
catégories doivent étre documentées à partir d'un répertoire de caté- 
gories de données en ligne comme nous l'avons décrit précédemment. 
Deux styles XML peuvent étre utilisés pour représenter les catégories 
de données terminologiques : Data Category as Attribute — DCA (caté- 
gorie de données en tant qu'attribut) et Data Category as Tag - DCT 
(catégorie de données en tant que balise)". 

Comme spécifié par la norme en question, les dialectes peuvent 
différer en ce qui concerne les catégories de données autorisées et les 
niveaux de métamodèle où ces catégories peuvent être saisies. Principa- 
lement, ils sont divisés en deux catégories : publics et privés. Sur le site 
TBXinfo.net., trois dialectes publics sont décrits et recommandés pour 
l'échange de la terminologie. Ils sont composés à partir de modules 
publics et leur maintenance et leur support sont gérés par TBXinfo.net. 
Les dialectes publics sont : 


71 Pour plus d'informations, veuillez consulter la section 6 de la norme et la page 
https://www.tbxinfo.net/dca-v-dct/ Pour le moment, il suffit d'expliciter que 
dans les deux cas, la valeur de la catégorie de données est le contenu de l'élé- 
ment XML et que ces deux styles sont isomorphes, c'est-à-dire qu'ils peuvent 
étre convertis dans les deux sens par un algorithme sans perte d'information. 
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1. TBX-Core : ce dialecte est le plus simple et comprend les caté- 
gories de données extraites du module Core. Le module Core 
est le module de base pour tous les fichiers TBX et contient la 
structure principale de TBX telle que décrite dans la norme 
ISO 30042 et les catégories de données /term/, /date/ et /note/”. 

2. TBX-Min : ce dialecte TBX est concu pour le stockage simple 
et direct de glossaires bilingues ou monolingues. Les catégo- 
ries de données se basent sur le module Min et comprennent 
/part of speech/, /subject field/, /external cross reference/ et / 
administrative status/. 

3. TBX-Basic : c'est le dialecte principal de l'échange de ter- 
minologie. TBX-Basic est congu pour stocker efficacement 
un grand nombre de glossaires terminologiques dans un for- 
mat XML simple. Il peut étre utilisé pour gérer des glossaires 
monolingues, bilingues ou multilingues. Les catégories de 
données qui font partie du module Basic sont /context/, /defi- 
nition/, /cross reference/, /grammatical gender/, /source/, /res- 
ponsibility/, /term type/, /xGraphic/, /transaction type/, /term 
location/, /project subset/ et /geographical usage/. Ce dialecte 
est le plus riche et le plus structuré et comprend les modules 
Core, Min, Basic. 


Les dialectes privés, en revanche, ne sont pas gérés par TBXinfo.net. 
Toutefois, une liste de dialectes privés connus est fournie en tant que 
service aux utilisateurs?. Par conséquent, TBXinfo.net ne peut pas 
garantir la stabilité ou la fiabilité des dialectes privés. L'organisme offre 
cependant la possibilité de valider les dialectes privés conçus selon les 
indications fournies à partir de la page dédiée. 


4.1.1.2 Conception d'un dialecte 


Les raisons de la conception d'un nouveau dialecte TBX reposent sur 
la volonté de l'implémenteur d'utiliser des catégories de données qui 
ne sont pas présentes dans le module de base Core. Tous les dialectes 
conçus ad hoc doivent donc être configurés comme une extension du 


72. En conformité avec la norme, les catégories de données sont en anglais. 
73 https://www.tbxinfo.net/tbx-private-dialects/ 
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module Core décrit précédemment, qui contient les catégories de don- 
nées essentielles (/term/, /date/, /note/). Dans ce sens, les nouveaux 
dialectes TBX étendent la structure de base en ajoutant un ensemble 
de modules de catégories de données spécifiquement choisies aux fins 
des exigences de développement de la ressource numérique. TBX est 
donc configuré comme un format hautement flexible, car il permet aux 
groupes d’utilisateurs de sélectionner leurs catégories de données et de 
formuler leur propre dialecte adapté à leurs besoins. 

Un nouveau dialecte TBX doit d’abord suivre des règles de déno- 
mination. En particulier, il faut que le nom du dialecte commence par 
le préfixe « TBX- » et se termine par un indicateur du nouveau module 
qui est configuré comme une extension du module de base Core. À titre 
d'exemple, supposons que nous voulons concevoir un nouveau dialecte 
TBX composé du module de base Core et d'un nouveau module arbitraire 
Multilang. Dans ce cas, le nom du dialecte sera donc « TBX-Multilang ». 

Une fois le nom du dialecte défini, l'implémenteur procède à la 
formulation du nouveau module TBX. Comme indiqué dans la norme 
(ISO-30042, 2019, p. 19), la définition d'un module est un processus qui 
se compose de 4 étapes : 


dénomination du module ; 

sélection d'une ou plusieurs catégories de données ; 
définition des propriétés de la catégorie de données ; 
établissement des contraintes de la catégorie de données. 


BAoU tc 


Le nom du module, qui ne suit pas les conventions de dénomination des 
dialectes TBX, doit être unique parmi les modules publics. Par consé- 
quent, en reprenant l'exemple proposé plus haut, un module peut étre 
nommé Multilang, mais pas « TBX-Multilang ». De plus, il n'est pas 
nécessaire que les noms de modules reflétent le nom du dialecte TBX 
principal pour lequel ils ont été conçus. Cela signifie que le module Mul- 
tilang aurait pu être nommé Fiction, même s’il s'agit du module de base 
du dialecte « TBX-Multilang ». Les catégories de données qui font partie 
du nouveau module sont sélectionnées à partir d'un répertoire de caté- 
gories de données en ligne (par exemple le répertoire DatCatInfo : voir 
sous-section 3.3.3 du chapitre précédent). Supposons que le nouveau 
module Multilang ajoute aux catégories essentielles du module Core, 
les éléments : /subject field/, /part of speech/ et /grammatical gender/. À 
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Dénomination PID Classification Valeur Niveau 

subjectField http://datcatinfo.termweb.eu/datcat/DC-489 <descrip> chaine de caractères conceptEntry, langSec 
partOfSpeech http://datcatinfo.termweb.eu/datcat/DC-396 <termNote> liste de sél 
grammaticalGender http://datcatinfo.termweb.eu/datcat/DC-245 <termNote> liste de sélection termSec 


ion termSec 


Image 4.1 — Exemple de TBXMD du module Multilang 


ce propos, il est nécessaire de sauvegarder le critère d'unicité des caté- 
gories de données : cela signifie que 1) les modules TBX conçus ad hoc 
ne doivent pas dupliquer les catégories déjà existantes, et 2) si plusieurs 
modules TBX sont utilisés dans le même dialecte, ils ne doivent parta- 
ger aucune catégorie de données. Une fois sélectionnées, les catégories, 
leurs propriétés et leurs contraintes doivent étre documentées et défi- 
nies. À ce propos, pour chaque catégorie il faut expliciter : 


— [identifiant mnémonique ; 

— ]e PID, c'est-à-dire un identifiant permanent unique pour chaque 
catégorie de données qui pointe vers son entrée sur un RCD ; 

— ]a classification, c'est-à-dire la classe de données terminolo- 
giques qui peut être de type descriptif («descrip»), administratif 
(«admin»), etc. 

— la valeur de la catégorie de données, à savoir le contenu autorisé 
pour chaque catégorie de données comme une liste de valeurs au 
choix entre « nom », « verbe », « adjectif », etc. 

— le niveau du métamodèle TMF où la catégorie de données est auto- 
risée, à savoir le niveau du concept (conceptEntry), de la langue 
(langSec) ou du terme (termSec)”. 


La définition formelle d'un module doit étre écrite en prose à travers 
le formalisme TBX Module Description (TBXMD) qui peut égale- 
ment étre utilisé pour écrire une description exploitable par machine. 
Dans l’image 4.1, nous illustrons une capture d'écran d'un forma- 
lisme TBXMD sommaire du module Multilang”?. Une fois le dialecte 


74 La section 8.3 de la norme en question (pages 12-14) décrit en détail les 
contraintes de positionnement des catégories de données. À titre d'exemple, les 
catégories de données appartenant à la classe <termNote> ne peuvent être posi- 
tionnées qu'au niveau de la section de terme. 

75 Le TBXMD doit également contenir d'autres informations de définition qui 
ne sont pas illustrées dans l'image. Pour ce niveau de détail, nous renvoyons 
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fictif « TBX-Multilang » défini, nous proposons ci-dessous un exemple 
d'instance : 


<?xml version="1.0” encoding=“‘UTF 8”?> 
<tbx xmlns:tbx3=“‘urn:iso:std:iso:30042:ed 2” 
type=““TBX Multilang" style=“‘dct”’ xml:lang="en”> 
<tbx Header> 
<fileDesc> 
<sourceDesc> 
<p>A sample multilingual termbase 
consisting of one terminological entry</p> 
</sourceDesc> 
</fileDesc> 
</tbx Header> 


<text> 
<body> 
<conceptEntry id="C7”> 
<date>23/10/2021</date> 
<note>NA</note> 
<multilang:subjectField>medicine</subjectField> 


<langSec xml:lang=“‘en’’> 
<termSec> 
<term>fever</term> 
<multilang:partOfSpeech>noun 
</multilang:partOfSpeech> 
<multilang:grammaticalGender>NA 
</multilang:grammaticalGender> 
</termSec> 
</langSec> 


le lecteur à consulter la norme ISO-30042 : 2019 ou aux exemples de modules 
publics disponibles sur : https://www.tbxinfo.net/tbx-modules/?id=1. 
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<langSec xml:lang=“‘it’’> 
<termSec> 
<term>febbre</term> 
<multilang:partOfSpeech>nome 
</multilang:partOfSpeech> 
<multilang:grammaticalGender>femminile 
</multilang:grammaticalGender> 
</termSec> 
</langSec> 


<langSec xml:lang="fr”> 
<termSec> 
<term>fievre</term> 
<multilang:partOfSpeech>nom 
</multilang:partOfSpeech> 
<multilang:grammaticalGender>feminin 
</multilang:grammaticalGender> 
</termSec> 
</langSec> 


</conceptEntry> 
</body> 
</text> 
</tbx> 


Dans l’élément racine <tbx>, il faut spécifier : 


l'espace de nom (xmlns) ; 

la valeur de l'attribut type, c'est-à-dire le nom du dialecte TBX ; 
le style de l’instance (DCA ou DCT) ; 

la langue de travail (xml:lang) du document, dans ce cas l'an- 
glais. 


PwWNr 


Ce dernier attribut ne doit pas être confondu avec l’élément <lang- 
Sec> : la définition de la langue de travail dans la racine du document 
indique la langue avec laquelle le fichier TBX est écrit (par exemple 
les balises), tandis que l’élément <langSec> spécifie la langue objet de 
description de la section (et donc le contenu des balises). 
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TBX-Multilang représente donc un exemple de base de données 
multilingue composée d’une seule entrée terminologique, à savoir un 
seul concept. Linstance de document suit le métamodèle hiérarchique 
de données TMF : dans l'ordre, <conceptEntry>, <langSec> et <term- 
Sec> sont définis. Au niveau du concept, représenté par son identifiant 
(id), les catégories de données /date/, /note/ (module Core) et /subject 
field/ (module Multilang) ont été placées. Ensuite, le même concept 
est exprimé en trois sections <langSec> pour l'anglais, l'italien et le 
français. Chaque <langSec> contient une <termSec> avec le terme qui, 
pour cette langue donnée, désigne le concept et d'autres catégories de 
données (/part of speech//grammatical gender/) appartenant au module 
Multilang. 

En guise de conclusion, on peut affirmer que les trois niveaux de 
la structure hiérarchique TMF (<conceptEntry>, <langSec> et <term- 
Sec») se retrouvent dans presque toutes les collections de données ter- 
minologiques. Cependant, comme nous l'avons vu dans la section 3.3.2 
du chapitre précédent, le niveau supplémentaire <termCompSec> peut 
apparaitre dans les collections dont la finalité est également la descrip- 
tion les composantes de termes complexes. Ce niveau de composant de 
terme est implémenté via un module dédié. Pour plus d'informations, 
nous renvoyons le lecteur au lien https://www.tbxinfo.net/tbx-modules/ 
?id=3. 


4.2 Actualisation des données terminologiques 


Une fois la phase de structuration des entrées terminologiques achevée 
selon le format TBX, nous nous concentrons dans cette section sur la 
phase suivante de compilation des données qui vont peupler chaque 
niveau hiérarchique (concept, langue, terme) de la fiche”. Quel que soit 


76 Nous soulignons que dorénavant nous utiliserons indifféremment les termes 
« entrée terminologique » et « fiche terminologique » se référant tous deux au 
conteneur qui collecte toutes les données qui peuvent étre saisies au niveau du 
concept, de la langue et du terme. 
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le domaine de travail du projet terminologique, une réflexion s’impose 
sur le choix du logiciel pour effectuer les opérations d’actualisation (à 
savoir d'insertion, de modification, de suppression) des données au 
sein d'une fiche terminologique structurée. Comme nous l'avons vu, 
un fichier TBX est un document de type textuel. Cependant, l'utilisa- 
tion d'éditeurs de texte pour la compilation de fiches terminologiques 
s'avere difficile à divers points de vue. 

Le premier aspect auquel nous prétons attention est celui rela- 
tif au contrôle et à la validation des données saisies. La structure du 
document TBX définie ci-dessus est généralement accompagnée d'un 
ensemble de fichiers d'accompagnement" visant à valider le document 
qui en garantissent une structure correcte (par exemple une catégo- 
rie de données ne peut pas être positionnée à un autre niveau TMF 
que celui pour lequel elle a été définie), et des valeurs uniformes (par 
exemple, les valeurs de la catégorie /part of speech/ ne peuvent pas 
apparaitre sous forme de séquence de caractères libre, mais doivent être 
choisies à partir d'un ensemble prédéfini). Ce premier point exclut a 
priori Vutilisation d'un simple éditeur de texte qui risquerait d'invalider 
le processus de cohérence des données garanti par la norme ISO. À cet 
égard, la documentation de référence disponible en ligne mentionne 
l'utilisation du logiciel Oxygen? pour la mise à jour et la validation des 
fichiers TBX en tant que logiciel optimisé à ces fins. 

Cependant, il existe un deuxième aspect lié à des problèmes d'effi- 
cacité : une base de données terminologiques TBX suffisamment volu- 
mineuse (quelques centaines de MB) ne permet pas à l'éditeur de texte 
d'afficher rapidement les modifications apportées au fichier. Méme les 
meilleurs logiciels optimisés pour différents types de fichiers XML 
imposent des limitations sur les fonctionnalités disponibles lors de l'ou- 
verture de fichiers volumineux : par exemple, l'affichage et la mise en 
forme du texte sont limités, la validation XML est désactivée ainsi que 


77 Dans l'annexe 3 de la norme en question (pages 39-42) référence est faite au 
langage de description Relax NG (Regular Language for XML Next Generation) 
qui permet de définir les différentes contraintes qui déterminent la classe des 
documents XML à des fins de validation. 

78  https://www.tbxinfo.net/validating-a-tbx-file/. 

79 https://www.oxygenxml.com. 
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la fonction de recherche et de remplacement et l'opération d'annulation 
d'une modification". Par conséquent, le choix du logiciel proposé par la 
documentation officielle de TBX devient en pratique difficilement utili- 
sable (voire inutilisable) lorsque l'on travaille avec de grandes quantités 
de données, entravant ainsi les mêmes principes de cohérence et de 
validation des données. 

Une dernière réflexion que nous avangons — toujours de manière 
générale — porte sur le fait que dans un projet de base de données ter- 
minologiques collaborative impliquant plusieurs utilisateurs, il faudrait 
aussi prévoir l'attribution de róles entre les différents collaborateurs 
de la ressource. Par exemple, il pourrait être nécessaire de distinguer 
les utilisateurs « administrateurs » qui vérifient la qualité des fiches 
et valident leur contenu, d'autres utilisateurs « compilateurs » qui ont 
pour seule táche celle de saisir des données et non de vérifier/valider le 
travail des collégues. 

Pour toutes ces raisons, pour les projets de bases de données termi- 
nologiques qui impliquent l'insertion de grandes quantités de données, 
une meilleure alternative à l'utilisation d'éditeurs de fichiers XML est 
de concevoir et de mettre en œuvre une application ad hoc qui permet 
de travailler de manière plus efficace et répartie sur plusieurs utilisa- 
teurs. À ce stade le terminologue numérique devra solliciter une col- 
laboration avec un collégue expert en conception de bases de données, 
afin de fournir toutes les informations nécessaires à la création d'une 
application qui permet l'actualisation de la base de données efficace- 
ment par différents utilisateurs, et avec différentes fonctionnalités selon 
sur le type d'utilisateur. C'est précisément ici qu'entre en jeu l'aspect 
interdisciplinaire du terminologue numérique, qui ne doit pas savoir 
développer ce logiciel, mais doit étre capable de fournir au développeur 
les conditions préalables nécessaires pour conformer la base de don- 
nées (de tout type, par exemple relationnelle ou orientée graphe)*! selon 


80 Ace propos, le lecteur est renvoyé à la documentation Oxygen disponible au lien 
suivant : https://www.oxygenxml.com/doc/versions/24.0/ug-editor/topics/huge- 
file-editor.html. 

81 Pour une étude approfondie à ce propos nous renvoyons le lecteur à l'article de 
Roy-Hubara et Sturm (2020) qui propose une revue systématique de la littérature 
sur les différents types de bases de données. 
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les normes ISO de référence. Dans cette perspective, un projet pilote 
mené en collaboration entre le Département d’études linguistiques et 
littéraires et le Département d’ingénierie de l'information de l'Uni- 
versité de Padoue a conduit au développement d'une Application Web 
appelée FAIRterm, pour faciliter la compilation de fiches terminolo- 
giques multilingues à travers une interface graphique conviviale qui 
permet d'exporter les données directement au format TBX standard 
(Vezzani, 2021). L'application Web FAIRterm fait partie de l'initiative 
susmentionnée de la « terminologie FAIR » et est accessible en ligne à 
partir du lien suivant : http://purl.org/fairterm. À l'heure actuelle, lap- 
plication sert de ressource de référence pour la compilation de fiches 
terminologiques dans le cadre du projet européen « Terminologie sans 
frontières » de l'Unité de Coordination de la Terminologie (Term- 
Coord)? du Parlement européen et constitue l'un des cas d'utilisation 
de la task force FAIR Metrics and Data Quality de l'European Open 
Science Cloud Association. 

Pour conclure, la prise en compte de tous ces aspects conduit éga- 
lement à l'investigation des questions relatives à comment et oü les 
données de la ressource sont publiées, ce qui est le sujet de discussion 
de la section suivante. 


4.3 Publication des données terminologiques 


Une fois les données terminologiques actualisées, revenons à la dis- 
cussion liée au processus de FAIRisation des données, en s'intéressant 
notamment à sa dernière étape, à savoir celle relative à la publication 
du jeu de données“. En effet, pour être réutilisées, les données doivent 
également étre stockées dans un espace qui permet de les retrouver 
et de les accéder à partir d'autres ressources et programmes. Le lieu 


82 https://yourterm.org/toolbox/. 

83 https://www.eosc.eu/sites/default/files/tfcharters/eosca_tffairmetricsanddataqu 
ality_draftcharter_20210614.pdf. 

84  https://www.go-fair.org/fair-principles/fairification-process/. 
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virtuel où les données peuvent être diffusées est généralement appelé 
«répertoire » et consiste en un ensemble de services qui permettent la 
conservation et l’accès aux données de la recherche“. 

Un répertoire de données est un élément fondamental de la science 
ouverte qui va au-delà de l’idée de partager des fichiers individuels (par 
exemple le fichier TBX contenant l’ensemble de la collection de données 
terminologiques) qui peuvent être téléchargés à partir de pages Web ou 
d'archives Cloud. Un répertoire de données remplit un ensemble de 
fonctions spécifiques nécessaires à la conservation de données FAIR, 
par exemple : 


— conserver les données pendant de longues périodes, avec des poli- 
tiques de sauvegarde et de migration des données pour un stockage 
correct ; 

— attribuer des identifiants uniques aux ensembles de données 
deposes ; 

— vérifier la qualité des données et des métadonnées ; 

— gérer l’accès aux données par les utilisateurs et attribuer des licences 
d'utilisation. 


L'un des exemples les plus importants de répertoire de données géné- 
rique — non spécialisé pour un domaine scientifique particulier — est 
Zenodo”, géré par le CERN* pour le compte d'OpenAIRE*. Zenodo 
permet aux chercheurs et aux institutions de partager, de préserver et 
d'afficher gratuitement les résultats de la recherche multidisciplinaire. 
Alternativement, en revenant au dernier paragraphe de la section pré- 
cédente, il est possible de développer son propre répertoire de données 
spécifique garantissant les fonctionnalités mentionnées précédemment. 
En ce sens, l'European Open Science Cloud?" promeut, à travers ses 
plateformes, une fédération d'infrastructures visant à rendre l’accès 


85 https://www.fairsfair.eu/articles-publications/boosting-fair-data-adoption-eu- 
outcomes-fairsfair-week-2021. 

86 https://www.nature.com/sdata/policies/repositories. 

87 https://zenodo.org. 

88  https://home.cern. 

89  https://www.openaire.eu/. 

90 https://eosc-portal.eu. 
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aux données scientifiques plus efficace et plus facile. À cet égard, le 
« marketplace EOSC »°! devient un point d'accés pour les « presta- 
taires » (providers) certifiés par EOSC lui-même. Un exemple parmi 
tant d'autres est celui de European Language Social Science Thesau- 
rus (ELSST) qui met à disposition les données d'un thésaurus multi- 
lingue en 14 langues”. Ce prestataire fournit le répertoire de données 
et propose des fonctions de consultation et de réutilisation des données 
non seulement pour l'utilisateur humain, mais aussi pour l'utilisateur 
machine. 


4.4 Conclusion 


Ce chapitre avait pour objectif d'aborder, à différents niveaux de gra- 
nularité, certains aspects fondamentaux pour la mise en œuvre d'une 
ressource terminologique numérique : c'est-à-dire la représentation, 
Pactualisation et la publication de données terminologiques. Afin 
de concrétiser ce qui a été évoqué jusqu'ici, nous proposons dans le 
chapitre suivant la description d'une étude de cas spécifique pour la 
conception et l'implémentation d'une ressource terminologique multi- 
lingue et polyvalente pour le domaine médical formulée sur la base du 
paradigme de la « terminologie FAIR ». 


9] https://marketplace.eosc-portal.eu. 
92  https://elsst.cessda.eu/about/. 
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Je ne sais si cela se peut ; mais je sais bien que cela est. 
Molière, L'Amour Médecin (1655) 


Les principes formulés à travers le paradigme de la « terminologie 
FAIR » peuvent s’adapter à n’importe quel domaine de travail de tout(e) 
terminologue/terminographe numérique. Ce chapitre sera consacré 
à la description d’une étude de cas spécifique concernant la concep- 
tion et l’implémentation d’une ressource terminologique FAIR pour 
le domaine médical”. La ressource nommée TriMED est une base de 
données terminologiques multilingue et polyvalente conçue pour Puti- 
lisation de différentes catégories d'utilisateurs impliqués, selon des 
perspectives différentes, dans le contexte médico-sanitaire (Vezzani et 
Di Nunzio, 2020b,a). 

En particulier, nous décrirons les raisons qui ont conduit à choisir 
la terminologie médicale comme domaine de travail dans une pers- 
pective intra- et inter-linguistique. Par la suite, une analyse des exi- 
gences de potentiels utilisateurs de la ressource sera proposée. Enfin, 
un grand espace sera consacré à la description des phases de concep- 
tion et d'implémentation de la ressource, ainsi que le développement de 
son interface Web et la présentation des données qui y figurent et qui 
sont actuellement disponibles pour consultation. 


93 L'étude de cas présentée a été développée dans le cadre d'un projet de recherche 
doctoral de 3 ans (2017-2020) mené au Département d'études linguistiques et lit- 
téraires de l'Université de Padoue. Ce chapitre rassemble, synthétise et retravaille 
une série d'articles publiés depuis le début du projet (Di Nunzio et Vezzani, 2021 ; 
Vezzani et Di Nunzio, 2020b, 2019b ; Vezzani et al., 2018). En particulier, nous 
réutilisons et développons des parties du matériel publié en anglais dans Vezzani 
et Di Nunzio (20202) : https://www.jbe-platform.com/content/journals/10.1075/ 
term.00053.vez 
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5.1 Langue médicale 


La langue médicale est une « langue de spécialité » au plein sens du 
terme. Cette expression désigne les langues utilisées dans des situations 
de communication (orales ou écrites) qui impliquent la transmission 
d’une information relevant d’un champ d’expérience particulier (Gotti, 
1991 ; Cortelazzo, 1990 ; Bianco, 2002). D'un point de vue plus prag- 
matique, la notion de langue spécialisée désigne une langue naturelle 
considérée en tant que vecteur de connaissances spécialisées. En tant 
que telle, la langue médicale devrait présenter des caractéristiques spé- 
cifiques vérifiables dans ses productions. Serianni (2003) identifie un 
premier trait distinctif dans la mono-référentialité, à savoir la caracté- 
ristique d'univocité entre le signe et le référent qui implique la non-uti- 
lisation de l'homonymie et de la synonymie, contrairement à l'attitude 
de la langue commune où la désignation d'un concept par le méme mot 
est presque considérée comme une forme de déficit linguistique. Le 
deuxième trait devrait être la neutralité émotionnelle, selon laquelle le 
ton du texte est neutre et objectif, privé de toute hédonicité, accordant 
donc plus d'importance à l'aspect dénotatif qu'à l'aspect connotatif. En 
outre, Gotti (1991) introduit d'autres aspects comme 1) la précision, 
selon laquelle chaque terme devrait exprimer son concept de façon 
immédiate ; 2) la concision, selon laquelle les concepts sont exprimés 
dans la forme la plus bréve possible ; et enfin, 3) la transparence, par 
laquelle le lexique des langues spécialisées devrait permettre un déco- 
dage rapide du sens d'un terme gráce à l'analyse de sa forme de surface. 
Or, d'un point de vue strictement terminologique, nous pouvons affir- 
mer, en toute objectivité, que les traits distinctifs susmentionnés sont 
souvent des composants souhaitables — en vertu d'une communication 
efficace — plutót que des manifestations réelles du discours médical. 
Dans les sous-sections suivantes, nous fournissons un aperçu de cer- 
tains problémes découlant de la complexité de la terminologie médicale 
qui se reflétent, en particulier, sur deux fronts : 1) d'un point de vue 
intra-linguistique, nous décrirons les difficultés qui se posent dans la 
communication entre le médecin et le patient ; 2) dans une perspective 
inter-linguistique, nous allons plutôt nous concentrer sur les défis qui se 
posent au traducteur scientifique. 
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5.1.1 Perspective intra-linguistique 


La communication dans le domaine médical est souvent caractérisée 
par l’utilisation d’une terminologie hautement spécialisée et difficile 
à comprendre pour les profanes. Habituellement, les professionnels de 
la santé tendent à utiliser leur propre jargon, connoté négativement de 
medicalese, en tant que composante du discours spécialisé de la méde- 
cine (Hadden et al., 2018). Par conséquent, les non-initiés à ce domaine, 
par exemple les patients, sont souvent exposés à des termes médi- 
caux qui peuvent être sémantiquement complexes et difficiles à com- 
prendre : parmi les différents auteurs qui traitent du sujet sur la scene 
internationale, voir par exemple Serianni (2005) ; Castro et al. (2007) ; 
Balliu (2010) ; Vecchiato et Gerolimich (2013) ; Magris (2016). Dans ce 
contexte, de nombreuses études se concentrent sur la complexité de la 
langue médicale en termes de « compréhensibilité » et de « lisibilité » 
des informations de santé contenues, par exemple, dans les notices? de 
médicaments (Patel et al., 2002) ou dans les sites Web (McCray, 2005 ; 
Jucks et Bromme, 2007 ; Tran et al., 2009). La différence entre la ter- 
minologie utilisée par les professionnels de la santé et la langue utilisée 
par les patients est donc citée comme une source de « mauvaise com- 
munication » (Elhadad et Sutaria, 2007). En effet, le domaine médical 
rassemble des personnes de différents statuts sociaux et de différents 
niveaux d'expertise qui éprouvent un crucial besoin d'interagir et de se 
comprendre de maniére simple et efficace. 

Du point de vue terminologique, les problémes de communication 
dans le dialogue (verbal ou textuel) entre le patient et le médecin sont 
strictement liés au phénoméne de la variation terminologique, c'est- 
à-dire des différentes représentations/manifestations d'un méme signe 
linguistique. À ce propos, de nombreuses études se concentrent sur 
différents aspects et types de variations de termes qui surviennent fré- 
quemment dans le discours médical, tels que, entre autres, les variantes 


94 Il est intéressant de noter qu'en italien, les notices des médicaments sont com- 
munément appelées bugiardini (mot dérivé de l'adjectif bugiardo, menteur en 
frangais) avec une connotation ironique qui visait à souligner, en particulier pen- 
dant les années de boom de la pharmacologie, la tendance à négliger les effets 
indésirables du médicament pour en mettre en relief les seules qualités : https:// 
bit.ly/2Y YtcQj. 
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réversibles (Bowker et Hawkins, 2006) ; les synonymes, les variantes 
flexionnelles et dérivatives (Llanos et al., 2016) ; et les variantes lexi- 
cales (Delavigne, 2017). L’une des manifestations les plus importantes 
de variation terminologique qui se produit dans le domaine médical 
est la variation de registre, ou variation diastratique (Coseriu, 1969). 
Selon la proposition de Freixa (2006) sur les typologies de la variation 
dénominative, ce phénomène est attribuable à des causes fonctionnelles 
lorsque le niveau de spécialisation linguistique des interlocuteurs doit 
être adapté : 


in medicine, denominative variation according to patients’ level of comprehen- 
sion is a common occurrence. The opposite intention has also been observed, 
i.e., when the specialist does not want the patient to understand what he says. In 
this case we could speak of "perverted adequacy" (Freixa, 2006). 


De plus, l'étude de Picton et Dury (2017) montre que le phénoméne de 
la variation diastratique se manifeste également entre des communau- 
tés d'experts qui, bien que travaillant dans le méme domaine, ont leur 
propre micro-langue de spécialité. 

Dans ce contexte, de nombreuses ressources ont été spécifiquement 
implémentées pour gérer la variation terminologique dans le domaine 
médical et, en particulier, pour combler les différences de registre qui 
se manifestent dans le dialogue médecin-patient. Ces ressources sont 
conçues à l'intention des non-experts, pour faciliter la communication 
et la transmission d'informations dans le domaine de la santé. L'objectif 
est de favoriser la compréhension des termes médicaux plutót que d'en 
normaliser la signification. Par exemple, le Consumer Health Vocabu- 
lary Initiative (Zeng et Tse, 2006) a conduit au développement d'une 
ressource utile?, pour la langue anglaise, qui permet de traduire des 
termes techniques dans une langue populaire. En parallèle, l'initiative 
de Cardillo et al. (2009) a conduit à l'implémentation de la ressource 
Italian Consumer-oriented Medical Vocabulary” qui est un diction- 
naire italien montrant la différente façon dont les patients et les profes- 
sionnels de santé en général expriment les thèmes de la santé. Dans ce 
contexte, le Ministére espagnol de l'Économie et de la Compétitivité 


95 http://bit.ly/2L3tSw4. 
96  http://bit.ly/2L31Fpp. 
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a financé un autre projet qui a également mené au développement de 
la base de données terminologiques VariMed” (Variation dénomina- 
tive en médecine. Ressource multifonctionnelle plurilingue pour la 
recherche et la vulgarisation) : cette ressource se concentre sur la varia- 
tion terminologique dans le domaine médical enrichie d'informations 
pragmatiques et vise à faciliter la communication entre les profession- 
nels de la santé et les patients (Tercedor Sánchez et Prieto Velasco, 
2013). Un autre projet disponible pour la consultation des patients est le 
moteur de recherche CureHunter” : cet index numérique intègre tous 
les médicaments connus, agents biologiquement actifs, maladies et 
données empiriques déclarations de tous les résultats cliniques efficaces 
publiés dans la Bibliothèque nationale de médecine des Etats-Unis”. La 
base de données est congue pour mettre l'accent sur la définition, la 
variation et les relations entre traitements-maladies, et elle fournit des 
documents faciles à lire pour chaque maladie. 

D'un point de vue multilingue, plusieurs initiatives ont été déve- 
loppées au niveau européen. La Commission européenne (DG III) a 
commandé le Glossaire multilingue des termes médicaux populaires et 
techniques'?, Le projet a été mis en œuvre par le Département de lin- 
guistique appliquée du Heymans Institute of Pharmacologie et Mercator 
School en 1995-2000. La ressource regroupe neuf glossaires de 1830 
termes médicaux scientifiques et populaires sur les notices de médica- 
ments dans neuf langues officielles de l'Union européenne. En 2018, 
l'Unité de Coordination Terminologique (TermCoord) du Parlement 
européen, en partenariat avec de nombreuses universités européennes, 
s'est engagée dans le projet YourTerm MED" consistant à réaliser une 
base de données terminologiques fondée sur la structure cognitive de 
la Terminologie des Cadres (Frame-based Terminology) (Faber, 2015). 
Cet outil multilingue est congu pour faciliter la communication entre 
les professionnels de santé en mission et leurs patients. En particulier, 
il s'efforce de répondre aux besoins terminologiques réels de Médecins 


97 http://varimed.ugr.es. 

98 http://www.curehunter.com. 
99 https://www.nlm.nih.gov. 
100 http://bit.ly/2UEMxxK. 

101 http://bit.ly/2VqClOO. 
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Sans Frontières (MSF) lors de leurs missions internationales, afin que 
les médecins puissent consulter sur place une ressource multilingue qui 
permette de prendre en charge les patients. 

La perspective intra-linguistique de la langue médicale reflète donc 
le probléme de la communication entre médecin et patient en termes de 
variation diastratique de la terminologie. Dans la section suivante, nous 
nous concentrerons plutót sur les défis auxquels se confronte la traduc- 
tion scientifique dans une perspective inter-linguistique. 


5.1.2 Perspective inter-linguistique 


La complexité de la langue médicale affecte non seulement la communi- 
cation intra-linguistique, mais également la transmission inter-linguis- 
tique d'informations médicales, c'est-à-dire la traduction de documents 
médicaux d'une langue source vers une langue cible (Fischbach, 1962). 
Les traducteurs scientifiques, en tant qu'experts linguistiques et non 
professionnels de la santé, sont engagés dans la tâche complexe de 
transmettre fidèlement les informations médicales dans différentes lan- 
gues en respectant une terminologie appropriée, le niveau de spéciali- 
sation du registre linguistique et la structure syntaxique de la langue 
cible (Montalt, 2011 ; Montalt et Gonzalez-Davies, 2014). Dans son 
article, Maurice Rouleau (1995) affirme : 


comme une langue de spécialité nait du besoin que ressentent les spécialistes de 
communiquer entre eux de fagon concise et sans ambigüité, elle est forcément 
réservée aux initiés, c'est-à-dire aux spécialistes. Pour maîtriser cette langue, 
le traducteur ne doit pas seulement connaitre les termes ; il lui faut savoir les 
enchainer dans un discours cohérent qui refléte les usages du domaine. 


La formation du traducteur est donc un aspect fondamental : de nom- 
breuses études proposent différentes méthodologies, du point de vue 
didactique, pour l'exécution efficace d'une traduction dans le domaine 
médical (Wakabayashi, 1996 ; Lee-Jahnke, 2001 ; Vandaele, 2001 ; Bal- 
liu, 2005). En général, le processus de traduction médicale est divisé en 
deux étapes : la phase de décodage et la phase de transcodage du texte 
(Jammal, 1999). Le décodage implique une démarche documentaire 
méthodique, une prise de conscience de certains aspects particuliers 
qui pourraient faire obstacle à la compréhension du texte et, enfin, une 
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recherche terminologique systématique en langue source et cible. Le 
transcodage consiste plutôt dans la formulation et l’adaptation d’un 
texte cible en respectant les contraintes imposées par deux aspects : les 
destinataires et le type discursif du texte. 

Du point de vue strictement terminologique, Rouleau (2003) iden- 
tifie certains facteurs à la base des difficultés propres à la langue médi- 
cale, comme l'usage, le changement de terminologie, la synonymie, la 
polysémie et l'éponymie. L'usage désigne, par exemple, la facon dont 
les médecins s'expriment habituellement et donc l'utilisation particu- 
lière de ce type de langue de spécialité. Par exemple, la construction 
de l'adjectif en hypallage est d'usage fréquent : l'adjectif s'accorde syn- 
taxiquement à un mot présent, mais qui est associé à un terme absent. 
Un exemple pourrait étre le syntagme « circulation veineuse » : il est 
bien évident que ce ne sont pas les veines qui circulent, mais le sang 
qui circule dans les veines. L'utilisation de l'hypallage est fréquente 
dans le discours médical : « diabéte sucré », « cure ambulatoire » ou 
bien « fiévre pré-tibiale ». De méme, certains cas lexicaux s'imposent 
par leur fréquence d'usage : un médecin parlera d'« infarctus du myo- 
carde », utilisant le groupe propositionnel au lieu de l'adjectif relation- 
nel « myocardique », et inversement, d'« adhérence cicatricielle » et pas 
d'« adhérence des cicatrices », même si, du point de vue syntagmatique, 
les deux versions sont possibles dans les deux cas!”. 

Le deuxiéme facteur identifié par l'auteur est le changement de 
terminologie. L'auteur fait référence aux oeuvres Nomina Anatomica et 
Terminologica Anatomica qui naissent d'un besoin d'uniformisation de 
la terminologie. Cette exigence se voulait une réponse à la difficulté que 
rencontraient les anatomistes de différents pays (et donc de différentes 
langues) à communiquer entre eux. Toutefois, l'imposition d'un terme 
ne reçoit pas toujours l'accueil souhaité et le souci d'uniformisation 
s'est doublé d'un souci de correction de termes qui persistaient dans 
l'usage. En outre, la nomenclature internationale a ensuite fait l'objet, 
au niveau national, d'une adaptation dont le traducteur doit forcément 
tenir compte (Vandaele et Gingras Harvey, 2013). 

Le troisiéme facteur de difficulté de la terminologie médicale 
concerne le phénomene de la synonymie. Idéalement, le rapport entre 


102 Les exemples cités sont tirés de l'article précité de Rouleau (2003). 
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un terme et sa notion devrait, en langue de spécialité, être monosé- 
mique (un terme par notion). Dans la pratique, il n’en est pas toujours 
ainsi. Il arrive qu'une même notion soit désignée par plusieurs termes 
(à ce propos, voir aussi Lurquin (1986)) : « pathologie »/« maladie », 
« céphalée »/« mal de téte », « hémorragie »/« saignement », etc. Au 
probléme que pose la synonymie, à savoir bien cerner la réalité dési- 
gnée par tel terme, vient s'en ajouter un autre, celui de l'éponymie. 
Dans le domaine médical, le recours à des éponymes, patronymes ou 
toponymes est courant, et cela peut engendrer des difficultés du point 
de vue inter-lingusitique : Henri Van Hoof décrit à plusieurs reprises 
les différences d'utilisation des éponymes qui peuvent varier selon la 
langue et la culture (Van Hoof, 1986, 1993, 2001). 

Le phénoméne de la variation terminologique se refléte donc 
également dans la perspective inter-linguistique. Comme l’affirme 
Magris (2012), l'étude de la synonymie et d'autres formes de variation 
a longtemps été négligée par les terminologues, en raison de l'impor- 
tance accordée à une correspondance biunivoque idéale entre termes 
et concepts. Ces derniéres années, cependant, ont produit un change- 
ment d'attitude : divers auteurs ont commencé à remettre en question 
ce principe et à concentrer leur attention sur le comportement réel des 
synonymes et des variantes dans une perspective traductologique. En 
outre, pour ce qui est de la langue médicale, le savoir est diffusé pour 
différents publics à différents niveaux de spécialisation, des articles de 
synthése aux textes journalistiques. Une telle diversité constitue pour 
les traducteurs un défi rarement mentionné et largement sous-estimé. 
Par exemple, l'article de Raffo (2016) présente les résultats d'une étude 
sur un corpus bilingue centrée sur la manière dont les concepts spécia- 
lisés sont présentés à un public profane. Il vise à approfondir la caracté- 
risation du discours spécialisé médical — plus spécifiquement dans les 
textes de vulgarisation — du point de vue de la traduction. 

Compte tenu des différentes caractéristiques du lexique médical et, 
par conséquent, des difficultés qui peuvent survenir lors du processus 
de traduction spécialisée, de nombreuses ressources terminologiques 
ont été conçues et mises en œuvre pour soutenir le traducteur pro- 
fessionnel dans sa pratique. Bien qu'elles ne soient pas toutes exclu- 
sives pour le domaine médical, le panorama international propose 
de nombreux glossaires, vocabulaires, lexiques et bases de données 
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terminologiques multilingues. Le site de l'Unité de Coordination de la 
Terminologie (TermCoord) du Parlement européen propose une liste 
exhaustive consultable en ligne'”%. Par ailleurs, le même TermCoord 
s'est récemment engagé, dans le cadre du projet « Terminologie sans 
frontières », dans le recueil par thèmes de ressources terminologiques 
monolingues ou multilingues : des ressources spécifiques au domaine 
médical peuvent donc être consultées sur le site en ligne"^. Dans ce 
vaste panorama des outils, nous nous concentrons exclusivement sur 
la description des ressources terminologiques multilingues destinées 
à la collection de fiches terminologiques qui groupent les informa- 
tions linguistiques accompagnant le terme dans la langue source et la 
langue cible. Dans ce contexte, il faut mentionner la ressource précé- 
demment décrite VariMed'? qui s'adresse non seulement aux patients, 
mais également aux traducteurs scientifiques. Comme l'expliquent 
Alarcón-Navío et al. (2016), le projet est né afin de gérer et d'orga- 
niser le phénomène concernant la variation terminologique dans une 
perspective traductologique. Les traducteurs sont souvent contraints de 
faire un choix parmi une multitude de variantes terminologiques ayant 
une signification similaire. La ressource est donc axée sur les moti- 
vations cognitives et communicatives de la variation dénominative, et 
la maniére dont elles se reflétent dans les variantes terminologiques 
d'un concept. La ressource est disponible pour l'anglais et l'espagnol. 
Pour chaque entrée terminologique associée à un concept, les variantes 
dénominatives du terme sont illustrées. Par exemple, le traducteur qui 
consulte le couple de termes désignant le concept fiebre-fever!% aura 
accès à une fiche terminologique qui fournit des informations relatives 
à : la catégorie grammaticale, le registre, l'usage géographique, les 
variantes de mots, les contextes d'utilisation du terme et les images 
liées au concept méme. 

Une autre ressource multilingue développée par le groupe de 
recherche LexiCon et spécifique pour le domaine de l'oncologie est la 
base de données terminologiques OncoTerm"". La ressource, conçue 


103 http://bit.ly/2W5K ggH. 

104 https://yourterm.org/med-resources-centre/. 

105 http://varimed.ugr.es. 

106 http://varimed.ugr.es/index.php?op=viewconcepto&idconcepto=32. 
107 https://www.ugr.es/~oncoterm/. 
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pour le besoin de gérer et de cataloguer la terminologie oncologique 
à des fins différentes (Faber, 2002), offre un modèle de fiche termino- 
logique de type bilingue (espagnol et anglais). En cherchant le terme 
carcinoma en anglais, par exemple, le traducteur peut visualiser simul- 
tanément une fiche bilingue avec les mêmes informations pour le terme 
de départ et le traduisant : la partie du discours, le numéro grammati- 
cal, la définition, le contexte, la date de création et la personne chargée 
de la compilation de la fiche terminologique. 

En général, nous pouvons affirmer que la tendance retrouvée dans 
ce type de ressource est d’aller au-delà du simple glossaire ou diction- 
naire, offrant des informations pertinentes au processus de traduction 
(comme la variation ou le contexte d'utilisation) qui ne se limitent pas à 
une liste des termes et de ses traduisants. Cependant, compte tenu des 
nombreux phénoménes terminologiques qui caractérisent cette langue 
de spécialité, nous croyons fermement que le traducteur technico- 
scientifique, n'étant pas forcément spécialisé dans le domaine médical, 
doit disposer d'une ressource qui fournit un plus grand nombre d’infor- 
mations terminologiques afin de pouvoir consulter une image globale 
et exhaustive de la terminologie analysée. 


5.2 Analyse des exigences 


À la lumiére du panorama présenté jusqu'à présent sur la complexité de 
la terminologie médicale, la définition de ses caractéristiques et les res- 
sources disponibles et consultables par le grand public, nous décrirons 
ci-dessous le projet à la base de notre recherche. L'état de l'art présenté 
dans le domaine de la terminologie médicale et les exigences de nor- 
malisation de la structure des ressources terminologiques numérique 
nous ont menés à réfléchir sur la nécessité de concevoir une nouvelle 
ressource terminologique normalisée pour le domaine médical. Cet 
objectif est motivé par deux exigences en particulier : 


l. fournir une ressource numérique qui se veut suffisam- 
ment exhaustive, c'est-à-dire contenant un grand nombre de 
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catégories et de données terminologiques, afin de répondre 
aux besoins d’information de plusieurs utilisateurs ; 

2. répondre aux exigences formulées dans la modélisation 
conceptuelle de la « terminologie FAIR », en concevant une 
ressource terminologique multilingue qui fournisse des don- 
nées numériques trouvables, accessibles, interopérables et 
réutilisables. 


Le fruit de nos recherches s’est matérialisé dans la conception et l’im- 
plémentation de la ressource multilingue TriMED'#. Le nom de la 
ressource s'inspire de son caractère tripartite. Trois sont les langues 
de travail pour lesquelles les données terminologiques sont fournies, 
c’est-à-dire le français, l’anglais et l’italien, et trois sont les typologies 
d'utilisateurs auxquels la ressource s'adresse : 


l. les patients ; 
2. les traducteurs ; 
3. les médecins. 


Les raisons qui nous ont permis d'identifier ces utilisateurs poten- 
tiels découlent de l'analyse de leurs besoins d'information. Quant aux 
patients, ou plus généralement au grand public non initié au domaine 
médical, il existe un réel probléme de compréhension de la terminologie 
médicale dû au niveau de spécialisation élevé de la langue. L'exigence 
du patient est donc de disposer d'une ressource qui mette en évidence le 
phénomène de variation diastratique. En ce sens, la ressource TriMED 
vise à fournir, pour chaque terme technique, son équivalent en langue 
populaire et sa définition. 

Dans une perspective inter-linguistique, les traducteurs sont 
confrontés à de nombreux défis liés au décodage et au transcodage 
des informations médicales à traduire. Comme nous l'avons vu, bien 
que le marché offre un grand nombre d'outils pour des domaines de 
travail trés variés, rares sont les ressources linguistiques spécifique- 
ment conçues pour le domaine médical. De plus, la majorité de ces 
outils ne fournissent pas un aperçu complet des données linguistiques 


108 Le lien pour la consultation de la ressource est le suivant : https://purl.org/trimed 
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liées aux termes techniques. Or, nous avons vu que le processus de 
traduction médicale doit prendre en compte différents axes d’analyse. 
Pour cette raison, la ressource terminologique TriMED présentera un 
nouveau modèle de fiche terminologique contenant jusqu’à 42 catégo- 
ries de données afin de fournir un cadre global sur le comportement 
syntaxique, sémantique et phraséologique du terme source et de son 
traduisant en langue cible. En outre, la structuration de TriMED en tant 
que ressource numérique FAIR permettra aux traducteurs d’exporter 
les données fournies et de les importer dans les systèmes de traduction 
assistée par ordinateur. 

Enfin, soulignant la composante d’interopérabilité entre les res- 
sources, nous nous tournons vers les professionnels de santé en offrant 
un point d'accès unique à la consultation des autres terminologies, 
nomenclatures ou codes de classification internationaux utilisés habi- 
tuellement par des experts. Tri MED permettra donc un accès direct 
aux ressources médicales, telles que les codes ICPC2 et ICDIO, et les 
vocabulaires SNOMED CT et MeSh Terms. 

Le caractère innovant de la base de données se reflète donc dans 
1) la richesse des données fournies, 2) la prise en compte systématique 
de différentes catégories d'usagers et 3) la normalisation de sa struc- 
ture. Dans les sections suivantes, nous décrivons donc la modélisation 
conceptuelle de TH MED comme la première ressource terminologique 
à adopter les principes « FAIR » susmentionnés à travers la formulation 
du paradigme. La structure de la ressource est inspirée du paradigme 
de la « terminologie FAIR » proposé et décrit dans les chapitres précé- 
dents. Compte tenu de la publication récente des trois normes ISO sur 
lesquelles repose la modélisation conceptuelle, la ressource Tri MED 
est configurée — à notre connaissance — comme la première à les implé- 
menter dans leur version actuelle. 


5.3 Modèle structurel de TrHr MED 


La conception de la structure de la ressource TriMED se fonde sur la 
norme ISO 16642 concernant le métamodèle Terminological Markup 
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Framework (TMF) (ISO-16642, 2017). Comme nous l'avons vu dans 
la section 3.3.2 du chapitre 3, le TMF est une norme internationale 
qui fournit un cadre pour la représentation de collections de données 
terminologiques, telles que les bases de données terminologiques mul- 
tilingues, dans le langage de balisage eXstensible Markup Framework 
(XML). La norme TMF s'articule autour de deux niveaux d'abstraction. 
Le premier niveau concerne une description du métamodèle qui sous- 
tend l'analyse, la conception et les échanges de données à un niveau trés 
général. Le métamodèle est donc indépendant de toute implémentation 
ou de tout logiciel spécifique. Le deuxiéme niveau concerne plutót les 
catégories de données qui peuvent étre associées aux niveaux du méta- 
modèle et qui sont spécifiques à chaque collection des données termi- 
nologiques (voir la section 5.4). 

Le modèle structurel de la ressource Tri MED est donc basé sur le 
cadre TMF qui adopte l'approche selon laquelle : un concept est décrit 
dans un nombre générique n de langues et est désigné par un nombre 
générique n de termes pour chaque langue. En particulier, le modèle 
structurel que nous proposons est configuré comme suit : 


—  TriMED est une collection de données terminologiques (CDT) qui 
contient un nombre quelconque d'entrées terminologiques (ET). 

— Chaque ET renvoie à un concept unique qui peut donc être repré- 
senté dans n langues dans les sections de langue (SL). 

— Pour chaque langue, il existe n sections de terme (ST) contenant les 
termes qui, dans cette langue particuliére, décrivent le concept. 

— Chaque ST peut contenir un nombre quelconque de sections de 
composants de terme (SCT) fournissant des informations sur des 
parties d'un terme telles que des morphémes, des phonemes, des 
syllabes ou des mots isolés à partir d'un terme composé. 


Les relations entre les différentes instances (entrée terminologique, sec- 
tion de langue, section de terme et section de composants de terme) 
sont réglées par les cardinalités, c'est-à-dire les valeurs qui indiquent 
le nombre minimum et maximum (x, y) des éléments des instances qui 
sont en relation entre eux. Dans l'image 5.1, nous proposons le schéma 
entité-association (Chen, 1976) du TMF pour la représentation de Tri- 
MED, où les entités (rectangles) sont les instances et les associations 
(losanges) sont les relations qui unissent ces derniers : la collection de 
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Image 5.1 — Schéma entité-association de TriMED 


données terminologiques contient un nombre quelconque d'entrées ter- 
minologiques (0, n). Une ET doit contenir au moins une SL (1, n). Une 
SL, qui fait référence à une et une seule langue, doit contenir au moins 
une ST (1, n) et une ST peut contenir un nombre quelconque de SCT 
(0, n). L'organisation hiérarchique est assurée par les cardinalités (1,1) 
exprimées entre les nœuds du métamodèle TMF. 

Cette structure distingue les niveaux hiérarchiques (Romary, 
2001a) auxquels différentes catégories de données (propriétés) peuvent 
étre associées : 


1. les données de type conceptuel communes à toutes les langues ; 
2. les données spécifiques à une langue ; 
3. les données spécifiques à un terme. 
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Dans la ressource TriMED un concept unique, exclusif pour une entrée 
terminologique et défini par son identifiant, peut être exprimé par n 
langues. Les sections de langue ont leur propre identifiant et incluent 
la définition exprimant le concept associé, ainsi que le code de langue 
défini par la norme ISO 6391. Par la suite, pour chaque langue, tous les 
termes désignant ce concept-là sont associés avec toutes leurs données 
de type terminologique. Enfin, dans le cas d’un terme complexe, les 
caractéristiques des parties du terme sont regroupées dans la SCT. 


5.4 Fiche terminologique 


La ressource TriMED est donc une collection de données terminolo- 
giques qui recueille un ensemble d’entrées terminologiques. L’une des 
nouveautés de cette ressource réside dans le modèle de fiche terminolo- 
gique fournie afin de collecter un grand nombre de données terminolo- 
giques pour chaque entrée. 

Une fiche terminologique est un outil pour enregistrer, dans un 
ensemble structuré de champs, les données terminologiques d’un 
concept spécialisé (Pavel et al., 2001). Autrement dit, la fiche termi- 
nologique se présente comme « un ensemble structuré de données 
terminologiques relatives à une notion »'?. Une ressource termino- 
logique est généralement organisée autour d'une collection de fiches 
terminologiques rassemblant des informations pertinentes sur les 
termes techniques. Le choix des données relatives à un terme à afficher 
à l'utilisateur dépend de la finalité de la ressource. Comme l’affirme 
(Gouadec, 1990) : 


une fiche de terminologie ou un dossier de terme ne s'improvisent pas : toute 
décision concernant la liste et le contenu de chacune des rubriques de la fiche ou 
du dossier est lourde de conséquences. 


109 https://www.iso.org/iso-639-language-codes.html. 
110 https://www.iso.org/standard/5591.html. 
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En effet, l'omission d'une information nécessaire à l'analyse oblige à 
reprendre tout le travail et à modifier la fiche, occasionnant une perte 
de temps considérable. 

Dans la ressource TriMED, la structure de la fiche vise la com- 
plétude, afin de respecter les exigences des diverses catégories d'uti- 
lisateurs (patients, traducteurs et médecins) : elle permet un repérage 
optimal des informations et assure une bonne gestion et une organisa- 
tion optimale des données. Le choix des informations à montrer à l'uti- 
lisateur a été guidé par le désir de fournir une ressource qui souhaite : 


l. aider les patients à comprendre correctement les informations 
médicales, compte tenu de l'aspect de la variation diastratique 
de la terminologie ; 

2. soutenir le traducteur dans le processus de traduction spécia- 
lisée en fournissant un cadre sur le comportement syntaxique, 
sémantique et phraséologique du terme source et de son tra- 
duisant en langue cible ; 

3. fournir un point d'accés unique pour la consultation des pro- 
fessionnels de la santé aux autres terminologies, nomencla- 
tures ou codes de classification internationaux généralement 
utilisés par des experts. 


En particulier, la fiche terminologique de Tr; MED fournit jusqu'à 42 
champs terminologiques (c'est-à-dire « catégories de données » en uti- 
lisant la terminologie de la norme ISO-12620 (2019)) qui peuvent étre 
associés à différents niveaux du modele structurel TMF. Pour cette rai- 
son, la fiche de Tri MED contient des catégories de données associées 
1) au concept, 2) à la langue de travail et 3) au terme analysé. Dans la 
sous-section 5.6.2, nous discuterons les contraintes de position pour les 
catégories de données et les raisons qui nous ont menés à ces choix. 
Pour le moment, nous décrivons dans la sous-section suivante les caté- 
gories de données fournies dans la fiche, en les classant en catégories 
de type terminologique, conceptuel et administratif pour des raisons de 
logique discursive. Nous avons décidé de présenter, d'abord, les caté- 
gories de type terminologique, c'est-à-dire les propriétés linguistiques 
qui peuvent être associées au terme qui désigne un concept donné pour 
une langue donnée. Vient ensuite la description des catégories de type 
conceptuel qui devraient étre communes à toutes les langues. Enfin, 
nous présentons les catégories de type administratif, qui permettent 
d'assurer la tragabilité de la fiche terminologique. 
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5.4.1 Catégories de type terminologique 


La fiche est articulée autour de différents axes d’analyse du terme. Le 
tableau 5.1 montre la liste des catégories de données de type termi- 
nologique qui sont fournies dans le modèle de fiche. Tout d’abord, la 
fiche contient la description des caractéristiques formelles du terme 
en rassemblant les informations concernant la partie du discours, 
le genre et le nombre grammatical. Chaque terme est donc étiqueté 
comme « nom », « verbe », « adjectif », ou « adverbe ». Le genre 
grammatical est fourni comme caractéristique intrinsèque du nom 
qui est donc classé comme « masculin », « féminin » ou « neutre ». 
Enfin, le nombre grammatical indiquant la quantité d'unités du terme 
est prévu : « singulier », « pluriel », « collectif » ou « partitif ». La fiche 
s'étend également à la famille lexicale du terme : elle contient tous les 
noms, verbes, adjectifs et adverbes qui dérivent du terme analysé et qui 
peuvent étre réunis sous la méme sphére sémantique. Par exemple, la 
fiche du terme « virologie » comprendra un champ relatif aux formes 
dérivées indiquant comme données terminologiques les termes « viro- 
logique », « virologiste » et « virologue »!!!. La fiche fournit aussi la 
prononciation en alphabet phonétique international (API) et d'autres 
informations de type étymologique, comme la dérivation et la compo- 
sition du terme (dans le cas de l'étymologie de « virologie » : « comp. 
des élém. formants viro-, tiré de virus* et -logie*. Cf. angl. Virology ».) 


Tableau 5.1 — Catégories de type terminologique 


Axe d'analyse Catégorie de données 

Morphologie partie du discours, genre grammatical, nombre 

Phonétique transcription API 

Étymologie dérivation, composition 

Variation variante orthographique, abréviation, expansion, acronyme 

Sémantique définition, analyse sémique, synonyme, hyponyme, 
hyperonyme 

Phraséologie unité phraséologique, collocation 

Pragmatique contexte d'utilisation 

Registre nom populaire, nom scientifique, codes de classification 
internationaux 

Domaine domaine, sous-domaine 


111 https://www.cnrtl.fr/definition/virologie. 
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Une attention particulière est consacrée au phénomène de la varia- 
tion des termes. Dans la fiche, apparaissent également les éventuelles 
variantes orthographiques, les abréviations et les acronymes fréquem- 
ment employés dans la langue médicale (Monin, 1993 ; Bowker et 
Hawkins, 2006). Les variantes terminologiques renseignent également 
les éventuelles variations orthographiques du terme qui peut s’écrire de 
plus d'une façon (Dugas, 1994 ; Jaffré, 2010) : « xénocestrogéne » ou 
« xéncstrogene », « acupuncture » ou « acuponcture », etc. Les abré- 
viations concernent plutót les formes abrégées résultant de l'omission 
de lettres d'un terme (« acdts » pour « accidents »), alors que l'acronyme 
est formé des initiales de plusieurs termes et est prononcé syllabique- 
ment comme un mot : par exemple « SLA » pour « Sclérose Latérale 
Amyotrophique ». Inversement, si l'entrée du terme est un acronyme, la 
fiche renseigne sur son expansion. 

La section consacrée à la sémantique du terme propose, tout 
d'abord, une définition des termes à travers l'analyse du sens qui leur 
est traditionnellement attribué par une communauté de personnes par- 
tageant le même savoir et ayant un objectif commun (L'Homme et San 
Martín, 2016). Les définitions constituent un systeme de connaissance 
structuré afin de contenir la signification d'un terme ; elles doivent 
« donner d'une notion une image mentale exacte » (Dubuc, 2002) et 
permettre de la « différencier des autres notions à l'intérieur d'un sys- 
tème notionnel » (Boutin-Quesnel, 1985). En outre, nous nous concen- 
trons sur le point de vue sémantique en fournissant l'analyse sémique 
du terme (Rastier, 2009). L'analyse sémique est une méthode d'étude 
utilisée dans la sémantique compositionnelle visant à décomposer la 
signification des termes en unités minimales de sens qui ne peuvent 
pas être segmentées : les sémes. L'union de multiples traits séman- 
tiques (sémes) constitue la signification d'un lexème (Hébert, 2007). 
Par exemple : 


— «pathologie » : /étude/ /médecine/ /développement/ /cause /symp- 
tóme/ /maladie/ ; 

— « maladie » : /altération/ /santé/ /étre vivant/ /signe/ /symptóme/ 
/causes internes/ /causes externes/ /évolution/ /organisme/ ; 
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— «bistouri » : /instrument/ /chirurgie/ /forme de couteau/ /lame fixe/ 
/lame repliable/ /incision/. 


De plus, la fiche fournit aussi les variantes synonymiques du terme, 
c'est-à-dire tout terme synonyme (ou quasi-synonyme) désignant le 
méme concept. Or, la question de la synonymie parfaite est un sujet 
tres discuté dans la littérature, en particulier pour les langues de spé- 
cialité, car les soi-disant synonymes couvrent rarement tous les aspects 
sémantiques du méme concept (pour ne citer que quelques auteurs sur 
ce sujet : Lurquin (1986) ; Lethuillier (1989) ; Durieux (1996) ; Quérin 
(2013)). Dans la fiche terminologique de TriMED, la catégorie de don- 
nées /synonyme/ est fournie en conformité avec la norme ISO-12620 
(2019) et nous avons ajouté un espace de réflexion pour les considéra- 
tions liées à l'équivalence sémantique des termes à travers la catégorie 
de données /note/. D'un point de vue traductologique, cet espace peut 
également étre utilisé pour mener des réflexions sur les équivalences 
ou sur les différences de dénominations entre les langues. Par exemple, 
en frangais le synonyme de « Sclérose Latérale Amyotrophique » est le 
terme complexe sous forme d'éponyme « Maladie de Charcot ». En ita- 
lien, il y a équivalence du terme scientifique Sclerosi Laterale Amiotro- 
fica, tandis que pour le synonyme, nous parlerons plutót de Malattia 
di Lou Gehrig, du nom du joueur de baseball, dont la maladie en 1939 
a attiré l'attention du public. Enfin, la fiche prévoit une catégorisa- 
tion des termes selon leurs relations sémantiques. En particulier, deux 
champs sont consacrés à la collecte d'hyperonymes et d'hyponymes du 
terme analysé. L'hyperonyme est le terme qui désigne le générique ; 
l'hyponyme désigne le spécifique (L'Homme, 2004) : dans le couple 
« imagerie médicale » — « scintigraphie », par exemple, le premier 
est l'hyperonyme ; le second, l'hyponyme. L'« imagerie médicale » 
regroupe les moyens d'acquisition et de restitution d'images du corps 
humain et la « scintigraphie » est l'une parmi les méthodes possibles. 

Pour l'évaluation du comportement sémantique du terme, nous 
prenons également en analyse sa phraséologie en considérant les unités 
phraséologique du terme, en particulier les locutions et les collocations 
(Galinski, 1990 ; Rousseau, 1993). Reprenant la définition fournie par 
Polguére (2015), nous considérons la locution comme une unité lexi- 
cale — une lexie — à part entière : 
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une locution est une expression phraséologique sémantiquement non composi- 
tionnelle. En tant que telle, elle doit être considérée comme non construite : elle 
ne se modélise pas comme assemblage syntaxique de ses éléments lexicaux dans 
l'interface sémantique-syntaxe. 


Pour sa part, la collocation est plutót considérée comme une structure 
binaire, formée d'une base et d'un collocatif, constituant une associa- 
tion lexicale privilégiée dont le sens est compositionnel. Dans la fiche 
terminologique du terme « cœur », par exemple, les cas de locution 
« chirurgie à cœur ouvert » ou « souffle au cœur »'? et les cas de col- 
location « cœur anémique, bon, défaillant, excellent, fatigué, fragile, 
instable, malade »!'? sont illustrés. 

Dans la fiche, toute une section consacrée au corpus fournit les 
contextes spécialisés dont les termes ont été extraits. Le contexte « ren- 
seigne sur le contenu notionnel du terme sans avoir la rigueur formelle 
d'une définition » (Boutin-Quesnel, 1985) et permet de dégager une 
image précise du concept. Le contexte est donc un élément fondamen- 
tal dans notre modèle de fiche terminologique, car il permet aussi de 
distinguer les cas d'homonymie et de polysémie du terme spécialisé. 
Par exemple, l'adjectif « cervical » désigne 1) la partie postérieure du 
cou, et 2) la partie anatomique relative au col de l'utérus'". Dans ce 
sens, les contextes permettent de dégager la signification du terme : 


1. « La dystonie cervicale se caractérise par des contractions 
involontaires prolongées (chroniques) ou par des contractions 
intermittentes périodiques des muscles du cou, induisant le 
cou à pivoter de différentes manières »''* ; 

2. « Vinsuffisance cervicale est l'ouverture indolore du col de 
l'utérus, entrainant la naissance du bébé au cours du 2e tri- 


mestre de la grossesse »!!^. 


112 https://www.cnrtl.fr/definition/coeur. 

113 https://bit.ly/3BP62L. 

114 Du latin cervical, de cervix (« nuque, cou, tête, goulot ») : https://www.enrtl.fr/ 
definition/cervical. 

115 https://msdmnls.co/3pzyfkH. 

116 https://(msdmnls.co/36wGWSt. 
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Dans la base de données TriMED, ce phénomène est géré en insérant 
deux ou plusieurs entrées pour le même terme, car il désigne deux ou 
plusieurs concepts différents. 

Nous procédons ensuite à l'identification du domaine et du registre 
d'emploi du terme. La notion de domaine joue en effet un róle central 
dans la terminologie en tant que constituant du concept : 


l'ensemble concept-définition est incomplet et donne l'impression d'étre un peu 
bancal. [...] Le concept, sa définition (et son terme) appartiennent obligatoire- 
ment à un domaine. [...] Le domaine permet d'indiquer le système conceptuel 
auquel appartient le concept (De Bessé, 2000). 


Le terme et sa définition prennent donc sens au moment où ils sont 
reliés à un domaine spécifique. Dans la fiche, nous identifions donc le 
domaine (« médecine ») et les sous-domaines d'usage du terme, par 
exemple « chirurgie », « pathologie », « pharmacologie », etc. 

La fiche offre également la spécification du niveau de registre de 
langue dans lequel le terme est employé : « populaire », « argotique », 
« vulgaire », « familier », « courant » ou « standard » et « soutenu ». 

La fiche terminologique accorde une attention particulière au phé- 
nomene de variation de registre, ou variation diastratique de la langue 
(Coseriu, 1969). Sur la base de la proposition de typologie de Freixa 
(2006), ce phénomène est attribuable aux causes de type fonctionnel 
lorsque le niveau de spécialisation linguistique des interlocuteurs doit 
étre adapté (voir par exemple Picton et Dury (2017)). Dans ce sens, 
la fiche prévoit deux catégories de données /nom populaire/ et /nom 
scientifique/, afin d'illustrer les différences de registre et de promouvoir 
la compréhension de l'information médicale de la part des non-experts. 
Des exemples de ce type sont : « rougeole » (nom scientifique) et « pre- 
mière maladie » (nom populaire), ou « coqueluche » (nom scientifique) 
et « toux des cent jours » (nom populaire). Enfin, dans le but d'intero- 
pérabilité entre les ressources dans le domaine médical, chaque terme 
de la ressource TriMED est mappé avec un lien direct vers d'autres 
nomenclatures et codes de classification internationaux. La fiche four- 
nit donc les catégories de données 1) /Code ICPC2/, 2) /Code ICD10/ 
3) /Terme SNOMED CT/ et 4) /Terme Mesh/ contentant l'URL du 
terme correspondant dans les suivantes ressources médicales : 1) 
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Tableau 5.2 — Catégories de type conceptuel 


Axe d’analyse Catégorie de données 


Concept concept superordonné, concept subordonné, relation 
entre concepts, sphère conceptuelle 


International Classification of Primary Care (ICPC-2)", 2) Interna- 
tional Classification of Diseases (ICD10)!5, 3) Systematized Nomencla- 
ture of Human and Veterinary Medicine—Clinical Terms (SNOMED 
CT)” et, 4) Medical Subject Headings (MeSh)”. 


5.4.2 Catégories de type conceptuel 


La fiche terminologique de Tri MED a une orientation conceptuelle afin 
de répondre au principe de conformité à la norme ISO-16642 décrite 
ci-dessus : chaque entrée terminologique fait référence à un concept 
unique auquel une définition est associée et qui regroupe tous les termes 
qui le désignent. Dans le tableau 5.2, les catégories de type conceptuel 
fournies dans notre modèle de fiche sont illustrées. Tout d'abord, il faut 
préciser que les données fournies au niveau conceptuel sont exclusi- 
vement de type alphanumérique et servent à établir des relations entre 
concepts — et, par conséquent, entre termes — au sein de notre systéme 
conceptuel. Par exemple, le terme « thrombose » a pour identifiant 
unique le code alphanumérique « TPLT19015 » et est directement lié 
au concept ayant le code d'identification « C5 ». Les identifiants du 
terme et du concept sont exclusifs pour chaque fiche terminologique 
et permettent d'identifier et de désambigüiser la relation directe entre 


117 https: /www.who.int/classifications/icd/adaptations/icpe2/. 
118 https://www.who.int/classifications/icd/en/. 

119 http://www.snomed.org. 

120 https://meshb.nlm.nih.gov/search. 
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les deux, en particulier dans la phase d’implémentation en langage de 
programmation. 

Nous avons vu qu’au niveau linguistique, la fiche prend en consi- 
dération les relations hiérarchiques entre les termes en fournissant les 
informations sur l'/hyperonyme/ et l’/hyponyme/ du terme analysé. De 
méme, au niveau conceptuel, nous entendons maintenir cette repré- 
sentation hiérarchique en fournissant les catégories du /concept supe- 
rordonné/ (concept de niveau supérieur) et du /concept subordonné/ 
(concept de niveau inférieur). Comme l'affirme Depecker (2017), les 
relations de superordination et de subordination dérivent de la propriété 
de certains concepts de subsumer d'autres concepts, c'est-à-dire d'en 
englober d'autres sous eux (principe de subsomption). Ces catégories 
de données contiendront donc les identifiants alphanumériques de l'en- 
trée terminologique au niveau conceptuel et seront directement liées 
aux identifiants des termes désignant ces concepts et exprimés dans la 
relation hyperonymie-hyponymie. Les relations entre les concepts ne 
se limitent pas seulement à la hiérarchisation entre la superordination et 
la subordination. Il existe en fait d'autres types de relations : coordina- 
tion, association, opposition, etc. (Depecker, 2017). La fiche terminolo- 
gique de TH MED permet d'expliciter ces liens sémantiques à travers la 
catégorie de données /relation entre concepts/. 

La derniére catégorie de type conceptuel fournie par la fiche ter- 
minologique de Tri MED concerne la /sphère conceptuelle/ du terme. 
Avec cette expression, nous nous référons à une macroclassification qui 
regroupe les concepts et, par conséquent, les termes sémantiquement 
liés par des critéres spécifiquement identifiés pour le domaine médical. 
La définition des sphéres conceptuelles a été réalisée avec l'aide d'un 
expert. En particulier, nous avons identifié sept sphéres conceptuelles 
classées comme suit : 


A — Diagnostic : types, méthodes et outils (en particulier, tests et exa- 
mens) pour les investigations, les évaluations et les formulations 
diagnostiques et pronostiques des maladies. 

B — Epidémiologie et prévention : systèmes de prévention, méthodes 
d'apparition, propagation et fréquence des maladies en fonction 
des conditions de l'organisme, de l'environnement et de la popu- 
lation. 
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C — Pathologie : maladies, conditions pathologiques, troubles et leurs 
signes (manifestations) et symptômes. 

D — Spécialités médicales. 

E — Pharmacologie : médicaments, produits chimiques, préparations 
artificielles. 

G — Anatomie : organisme humain, cellules, tissus, organes et systèmes. 

H — Thérapie : outils, techniques et opérations chirurgicales, préven- 
tives (ou prophylactiques), thérapies de soutien, psychologiques ou 
psychothérapeutiques pour le traitement des maladies, des condi- 
tions pathologiques et des troubles. 


Chaque terme contenu dans la ressource TriMED est donc associé 
manuellement à une /sphére conceptuelle/ selon le champ sémantique 
auquel il appartient. Par exemple, les termes « scintigraphie », « angio- 
tomodensitométrie » et « échographie » seront regroupés sous la sphère 
conceptuelle ayant comme identifiant la lettre A en tant qu'outils d'inves- 
tigation diagnostique et pronostique de la maladie. Les termes « autoé- 
valuation », « dépistage » et « contagion » seront associés à la sphère 
conceptuelle B en tant que désignant des concepts liés à la prévention 
et à la propagation des maladies. La sphére conceptuelle C comprendra 
plutót les noms de maladies telles que le « syndrome de Down », la 
« maladie d'Alzheimer » et la « diphtérie ». Les différentes spécialités 
de la médecine telles que la « virologie », la « bactériologie » ou la 
« biologie » seront plutót regroupées dans la sphére conceptuelle plus 
générique D. Les termes relatifs aux substances pharmaceutiques ou 
préparations chimiques, telles que les « alcaloides », le « chloroforme » 
ou la « solution saline » sont regroupés sous la sphére conceptuelle 
E. Enfin, les termes concernant le corps humain (« rate », « colonne 
vertébrale » ou « foie ») seront étiquetés avec la sphére conceptuelle 
G, tandis que les termes désignant les thérapies et techniques pour le 
traitement chirurgical de la maladie, tels que « résection », « ablation », 
« excision », feront partie de la sphére conceptuelle identifiée par la 
lettre H. Le choix de cette catégorie de données permet donc de regrou- 
per les termes sémantiquement liés. Cette catégorie peut étre donc 
classée comme une entité plus générique du méme concept. De cette 
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manière, des termes tels que 1) « diagnostic » (concept Al), 2) « dia- 
gnostiquer » (concept A2) et 3) « diagnostique » (concept A3) peuvent 
être considérés comme trois concepts différents (chacun correspondant 
à sa propre définition exprimée en langage naturel) indiquant 1) une 
pratique, 2) une action et 3) une qualification, regroupés sous la même 
sphère conceptuelle A. 


5.4.3 Catégories de type administratif 


Afin d’assurer la traçabilité des données fournies et leur interpréta- 
tion correcte, la fiche terminologique de TriMED fournit également 
des catégories de données de type administratif illustrées dans le 
tableau 5.3. Pour que les données terminologiques soient trouvables, 
accessibles, interopérables et réutilisables, il est strictement néces- 
saire qu’elles soient associées à des identifiants uniques et persistants. 
Les identifiants sont associés à chaque instance du modèle structurel 
TMF : cela signifie que chaque entrée terminologique fournira un code 
exclusif pour le niveau du concept, de la langue et du terme. 


Tableau 5.3 — Catégories de type administratif 


Axe d'analyse Catégorie de données 


Admin Identifiants, source, référence croisée, référence croisée 
externe, responsabilité, type de transaction, date, note 


L'image 5.2 montre que le concept ayant le code A13 (où la lettre 
«A » se réfère à la sphère conceptuelle du « Diagnostic » précédem- 
ment décrite) est représenté en trois langues qui ont comme identi- 
fiant : « FR » pour le frangais, « IT » pour l'italien et « EN » pour 
l'anglais. Ensuite, un terme est associé à chaque langue, c'est-à-dire 
la désignation de ce concept dans cette langue, chacune ayant son 
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propre identifiant exclusif : scintigraphie (TPLT19035), scintigra- 
fia (TPLT18056) et scintigraphy (TPLT18055). Le fait d'avoir trois 
termes traduisants avec des identifiants exclusifs qui pointent vers le 
méme identifiant de concept nous permet de gérer efficacement les 
données et de récupérer automatiquement les traduisants du concept 
lui-même. 

Un autre aspect important pris en compte dans le modèle de fiche 
est la traçabilité des sources consultées notamment pour la /définition/ 
et le /contexte/ du terme. En ce sens, la fiche fournit les catégories de 
données /source/ et /référence croisée externe/ afin d’expliciter 1) la 
source des informations dans le cas des documents papier et 2) l'URL 
de la ressource externe consultée dans le cas de documentation numé- 
rique. Par ailleurs, en cas de références internes à la ressource, la caté- 
gorie de données /référence croisée/ permet d'orienter l'utilisateur vers 
des liens et d'associations entre les fiches terminologiques. Les autres 
catégories administratives concernent la /responsabilité/, c'est-à-dire 
l'individu qui a formulé ou modifié l'entrée terminologique, le /type de 
transaction/ réalisé (généralement, origine ou modification), la /date/ 
dans laquelle la transaction a eu lieu et toute /note/ complémentaire. 


Concept ID: A13 


Scintigraphie Scintigraphy 


ID: TPLT19035| | Scintigrafia | | ip. TPLT18055 
ID: TPLT18056 


Image 5.2 — Identifiants dans TriMED 
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5.5 Répertoire des catégories de TriMED 


Dans la section 3.3.3 du chapitre 3, nous avons décrit l’importance de 
documenter les catégories de données présentes dans une ressource 
terminologique afin de comprendre leur signification, de pouvoir les 
réutiliser efficacement et de garantir leur interopérabilité. En particu- 
lier, le document de référence pour leur normalisation est la norme 
ISO-12620 (2019) concernant les Spécifications des catégories de don- 
nées. Une spécification de catégorie de données fournit la représenta- 
tion complète et formelle d’une catégorie. Pour leur description et leur 
implémentation, la norme fait référence à un répertoire de catégories 
de données nommé DatCatInfo"!, qui recueille une liste de toutes les 
catégories de données et leurs spécifications disponibles pour la termi- 
nologie et produites au sein de l'Organisation Internationale de Nor- 
malisation (ISO). 

La nouveauté de cette norme réside dans la possibilité que tous les 
implémenteurs congoivent leur propre répertoire spécifique pour leur 
ressource terminologique afin de documenter les catégories de données 
qui ne sont pas présentes sur DatCatInfo, ou sur tout autre répertoire 
partagé. De cette facon, la définition d'un cadre clair pour spécifier, 
gérer et utiliser les catégories de données améliore l'interopérabilité 
entre les ressources terminologiques. À cette fin, en suivant les direc- 
tives prévues dans la norme précitée, nous avons concu le répertoire 
de catégories de données de TriMED qui rassemble toutes les spécifi- 
cations, c'est-à-dire la description de toutes les catégories de données 
terminologiques que nous fournissons dans notre modèle de fiche ter- 
minologique. L'application Web a été implémentée à l’aide du package 
Shiny R (Chang et al., 2021) et est disponible en ligne'?. De plus, pour 
permettre la visualisation au format papier, nous fournissons dans l'an- 
nexe A de cet ouvrage la description de toutes les spécifications de don- 
nées fournie sous forme de tableau. À notre connaissance, il s'agit du 


121 http//www.datcatinfo.net/. 
122 Le lien pour la consultation du répertoire est le suivant : http://purl.org/trimed/ 
dcr. 
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premier répertoire implémenté selon cette norme, et il recueille 42 spé- 
cifications de catégorie de données. Comme le montre l'image 5.3%, les 
informations fournies pour chaque catégorie de données sont : 


Data Category Repository - Ti MED 


Language 


en 


Data Category 


Common name 


Description 


PID: http:/www.datcatinfo.net/datcat/DC-328 
Identifier: commonName 

Module: Timed 

Level (TMF): termSec 

Classification: <termNote> 

Implemented as: string 

Value(s): NA 


Description: A synonym for an international scientific term that is used in general discourse in a given language. 
Explanation: NA 

Note: NA 

Example: Mountain laurel, as opposed to the international scientific name, Kalmia latifolta 


& Download CSV 


Image 5.3 — Répertoire des catégories de Tri MED 


Un identifiant unique et persistant (PID), c'est-à-dire une URL 
qui fournit l'accés Web direct à la spécification de la catégorie 
de données dans le répertoire en ligne. 

Un identifiant mnémonique unique et stable de la catégorie de 
données qui ne doit pas inclure d'espaces entre les mots, car il 
est utilisé dans les environnements de codage comme élément 
ou comme valeur d'attribut. Dans l'exemple fourni, cet identi- 
fiant est common Name. 

Le module de catégories de données TBX auquel la catégorie 
se réfère (voir la section 5.6). 

Le niveau du métamodéle TMF (concept, langue et terme) 
auquel la catégorie de données est associée dans notre res- 
source. L'exemple illustre la catégorie /common name/ asso- 
ciée à la section de terme. 


123 La capture d'écran a été prise le 21/10/2021 à partir de la page suivante : http:// 
purl.org/trimed/dcr. 
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OF 


10. 


La typologie de contenu de la catégorie de données, c’est- 
à-dire les types d'informations que la catégorie de données 
permet par sa mise en ceuvre, comme une liste déroulante ou 
une chaîne de caractères. 

L'ensemble de valeurs énumérées que la catégorie de données 
peut avoir si elle est implémentée en tant que liste déroulante. 
La définition de la catégorie de données. 

D'autres explications et notes sur la catégorie de données. 
Quelques exemples d'utilisation de la catégorie de données, 
tels que singulier ou pluriel. 

La traduction du nom canonique de la catégorie de don- 
nées dans les autres langues de travail de la ressource. Dans 
l'exemple fourni, nom populaire pour le frangais et nome 
popolare pour l'italien. 


Il faut noter que, afin d'éviter la duplication des métadonnées et d'assu- 
rer une certaine tragabilité, les informations fournies dans le répertoire 
de TriMED concernant les PID des catégories de données se réfèrent à 
l'URL correspondant sur DatCatInfo pour les catégories qui sont déjà 
documentées dans ce répertoire. Par exemple, le PID de la catégorie 
de données /common name/ est le même que celui fourni dans DatCa- 
tInfo, à savoir http://www.datcatinfo.net/datcat/DC-328 Il existe égale- 
ment un nombre restreint de catégories de données qui sont exclusives 
pour notre ressource et ne sont donc pas illustrées sur DatCatInfo. Ces 
catégories de données terminologiques comprennent : 


1) l'analyse sémique, 

2) Phyperonyme, 

3) l'hyponyme, 

4) le sous-domaine, 

5) le code ICPC2, 

6) le code ICD10, 

7) le terme SNOMED CT, 
8) le terme MeSh, 

9) la sphére conceptuelle. 


Pour ces catégories, nous fournissons un PID qui correspond à URL 
de la page associée dans notre répertoire Tri MED. Par exemple, pour 
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l'analyse sémique le PID fourni est : http://purl.org/trimed/dcr/dc/ 
de-12. 

Le choix de formuler notre répertoire de catégories de données 
nous permet de désambigüiser la signification de certaines catégories 
de données. Les utilisateurs qui consultent la ressource peuvent donc 
trouver toutes les informations nécessaires pour comprendre les don- 
nées fournies. Le répertoire de TriMED incarne les lignes directrices 
pour compiler correctement les fiches terminologiques en termes de 
«cohérence » des données. En particulier, nous nous référons à la déno- 
mination des catégories de données représentées au sein de la ressource, 
qui doit suivre une certaine rigueur (Wright, 2001) : l’ensemble des 
valeurs de chaque catégorie de données est défini par le même réper- 
toire. La catégorie /common name/ possède donc un identifiant unique, 
c’est-à-dire la chaîne de caractères lisible par machine commonName, 
pour laquelle le système n’accepte aucune autre variante. Enfin, comme 
suggéré par la norme et pour répondre au besoin de réutilisation des 
données, l'utilisateur peut exporter les informations fournies dans le 
répertoire dans le format Comma-Separated Values (CSV) et eXten- 
sible Markup Language (XML). 


5.6 Mise en cuvre TBX 


Après avoir défini 1) le modèle structurel de Tri MED, 2) les catégories 
de données que nous fournissons dans le modèle de fiche et, 3) leurs 
spécifications collectées dans un répertoire congu à cet effet, nous 
décrivons dans cette section le format d'implémentation choisi pour 
notre collection de données terminologiques. Sa mise en œuvre est fon- 
dée sur la norme ISO-30042 concernant le format TermBase eXchange 
(TBX) décrit dans la section 4.1 du chapitre 4. Ce document définit le 
cadre TBX, exprimé en langage de balisage XML, pour l'analyse, la 
représentation descriptive et la diffusion de données terminologiques 


124 Un exemple visuel de ce type sera également fourni dans la section 5.8. 
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structurées. En particulier, l'objectif principal du cadre TBX est de 
garantir que les données terminologiques peuvent être utilisées dans 
différents logiciels. Par exemple, dans le processus de traduction avec 
les outils de Traduction Assistée par Ordinateur (TAO), le format TBX 
est le plus couramment utilisé pour les systèmes de gestion terminolo- 
gique (Bowker et Fisher, 2010). 

En résumé, le format TBX est basé sur deux composants en interac- 
tion : 1) une structure de base qui reflète le métamodèle TMF, et 2) un 
formalisme visant à définir des modules avec une liste de catégories 
de données. La combinaison de ces deux composants définit un « dia- 
lecte » particulier, c'est-à-dire un langage de balisage XML conforme 
à TBX. Les dialectes peuvent différer en termes de catégories de don- 
nées autorisées et de niveaux de métamodèle où ces catégories peuvent 
être saisies. Sur le site Web TBXinfo.net'^, trois dialectes publics sont 
recommandés pour l'échange de terminologie : 1) TBX-Core, 2) TBX- 
Min, 3) TBX-Basic que nous avons précédemment décrits. Ces dia- 
lectes fournissent un ensemble restreint de catégories de données. Pour 
cette raison, la norme permet donc la formulation des « dialectes pri- 
vés » afin de représenter les catégories de données terminologiques qui 
ne sont pas incluses dans les modules publics. 


5.6.1 Formulation du dialecte TBX-TriMED 


Compte tenu des catégories de données de Tri MED, nous avons donc 
décidé de formuler un nouveau dialecte qui s'appelle « TBX-Tri- 
MED » selon les conventions de dénomination établies sur la page 
suivante : https://www.tbxinfo.net/tbx-dialects/ Pour les catégories 
de données déjà documentées, la norme précise que les modules 
publics (Core, Min, Basic) doivent étre référencés, tandis que pour les 
autres catégories, il est nécessaire de compiler un nouveau module 
TBX spécifique. 

Nous avons donc formulé le module 7rimed qui contient les caté- 
gories de données exclusives pour notre ressource. Pour se conformer à 
la norme, la définition formelle du module Trimed a été écrite en prose 


125 https://www.tbxinfo.net/tbx-dialectes/. 
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et en langage XML en utilisant le formalisme TBX Module Descrip- 
tion (TBXMD). Dans l'image 5.4%, nous fournissons une liste partielle 
des catégories de données contenues dans notre module avec toutes les 
informations pertinentes selon la norme internationale qui sont : liden- 
tifiant, le PID, la classification, la valeur et le niveau TMF. Dans l'an- 
nexe B de cet ouvrage, nous fournissons le document qui contient la 
définition complète du module 7rimed. 

Comme spécifié en ligne sur la page consacrée aux modules pri- 
vés!”, la pratique recommandée pour les définitions d'un nouveau 
module est d'utiliser le répertoire public GitHub'#. Un package de défi- 
nition du module doit contenir les informations suivantes : 


— définition du module en prose ; 
— schémas de module ; 
— formalisme TBXMD. 


À ce propos, le package de définition du dialecte TBX-TriMED est 
disponible en consultant le lien suivant : https://github.com/trimed- 
dialect-2020/Tri MED"? Le dialecte TBX-TriMED comprend donc les 
modules suivants : 


— Core qui contient les catégories de données : /terme/, /date/ et /note/. 

— Min qui contient (entre autres) les catégories de données : /partie du 
discours/ et /domaine/. 

— Basicquicontient (entre autres) les catégories de données : /contexte/, 
/définition/, /référence croisée/, /genre grammatical/, /source/, /res- 
ponsabilité/, /type de transaction/ et /référence croisée externe/. 

— Trimed qui contient les catégories de données : /concept supe- 
rordonné/, /concept subordonné/, /sous-domaine/, /identifiant de 
concept/, /identifiant de langue/, /identifiant/, /nombre grammatical/, 


126 Lacapture d'écran a été prise le 21/10/2021 à partir du répertoire GitHub en ligne 
qui contient la description du dialecte : https://bit.ly/3E4pT X4. 

127 https://www.tbxinfo.net/tbx-private-modules/. 

128 https://github.com. 

129 Actuellement, le package a été envoyé pour validation au contact indiqué sur le 
site officiel de TBXinfo.net : https://www.tbxinfo.net/tbx-private-dialects/. 
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Name: Trimed 


Data Category Module Definition 


Namespace: http://shiny.dei.unipd.it/TriMED/data_category_repository/ 


Description: The Trimed Module is a data category module collecting data categories selected from 1) DatCatinfo (http://www.datcatinfo.net/#/) 


and 2) TriMED Data Category Repository. 


Data Categories: 
Level (TMF) 
superordinateConcept | http://www.datcatinfo.net/datcat/DC- | «descrip» conceptEntry 
495 
subordinateConcept http://www.datcatinfo.net/datcat/DC- | «descrip» conceptEntry 
490 
http://purlorg/trimed/dcr/dc/d. conceptEntry 
conceptidentifier http://www.datcatinfo.net/datcat/DC- conceptEntry 
139 
languageldent http://www datcatinfo.net/datcat/DC- langSec 
279 
identifier http://www.datcatinfo.net/datcat/DC- | «descrip» termSec 
3894 
grammaticalNumber http://www datcatinfo.net/datcat/DC- | <termNote> singular, plural, termSec 
251 dual, mass, 
otherNumber 
derivative http://www.datcatinfo.net/datcat/DC- termSec 
4611 
pronunciation http://www.datcatinfo.net/datcat/DC- | <termNote> termSec 
407 


Image 5.4 — Formalisme partiel du module Trimed 


/formes dérivées/, /prononciation/, /étymologie/, /variante orthogra- 
phique/, /abréviation/, /expansion/, /acronyme/, /analyse sémique /, 
/synonyme/, /hyponyme/, /hyperonyme/, /unité phraséologique/, 
/collocation/, /registre/, /nom populaire/, /nom scientifique/, /code 
ICPC2/, /code ICD10/, /terme SNOMED CT, /terme MeSh/ /rela- 
tion entre concepts/ et /sphère conceptuelle/. 


Une fois que les composants du dialecte TBX-TriMED et que les caté- 
gories de données pour chaque module ont été définies, nous fournis- 
sons ci-dessous un extrait d'instance de notre dialecte : 


<?xml version="1.0” encoding=“‘UTF-8’’?> 


<tbx type="TBX-TriMED” style-''dct" xml:lang=""en” 
xmlns="urn:iso:std:iso:30042:ed-2” 
xmlns:min- http" 
xmlns:basic=“‘http://www.tbxinfo.net/ns/basic”’ 
xmulns:trimed=“‘https://github.com/trimed—dialect—2020/TriMED’’> 
<tbx Header> 
<fileDesc> 
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<sourceDesc> 
<p>A sample of the TriMED termbase 
consisting of one concept entry</p> 
</sourceDesc> 
</fileDesc> 
</tbx Header> 
<text> 
<body> 
<conceptEntry> 
<trimed:conceptIdentifier>A 2</trimed:conceptldentifier> 
<trimed:conceptualSphere>A</trimed:conceptualSphere> 
<basic:crossReference></basic:crossReference> 
<trimed:conceptRelation></trimed:conceptRelation> 
<basic:transaction>origination</basic:transaction> 
<basic:responsibility>Federica Vezzani</basic:responsibility> 
<date>04/04/2020</date> 
<note></note> 
<trimed:superordinateConcept></trimed:superordinate- 
Concept> 
<trimed:subordinateConcept></trimed:subordinateConcept> 
<min:subjectField>medicine</min:subjectField> 
<trimed:subDomain></trimed:subDomain> 


<langSec xml:lang="en”> 

<basic:definition>The act or process of identifying or 
determining the nature and cause of a disease or injury 
through evaluation of patient history, 

examination, and review of laboratory data.</basic:defini- 
tion 

<basic:externalCrossReference>  https://www.thefreedictio- 
nary.com/diagnosis 

</basic:externalCrossReference> 
<basic:source></basic:source> 

<note></note> 

<trimed:semicAnalysis>/process/ 

/identification/ /nature/ /cause/ 
/disease/</trimed:semicA nalysis> 
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<termSec> 

<term>diagnosis</term> 

<trimed:identifier>TPLT 18167</trimed:identifier> 
<basic:transaction>origination</basic:transaction> 
<basic:responsibility>student TPLT</basic:responsibility> 
<date>01/01/2018</date> 

<note></note> 
<min:partOfSpeech>noun</min:partOfSpeech> 
<basic:grammaticalGender></basic:grammaticalGender> 
<trimed:grammaticalNumber></trimed:grammaticalNum- 
ber> 

<trimed:pronunciation></trimed:pronunciation> 
<trimed:etymology></trimed:etymology> 
<trimed:variant>plural: diagnoses</trimed:variant> 
<trimed:acronym></trimed:acronym> 
<trimed:fullForm></trimed:fullForm> 
<trimed:abbreviation></trimed:abbreviation> 
<trimed:derivative>to diagnose, to diagnosticate, 

diagnostic, diagnostically, diagnostician</trimed:derivative> 


<trimed:collocation>accurate diagnosis, age of diagnosis, cli- 
nical diagnosis, correct diagnosis,definitive diagnosis, 

early diagnosis, differential diagnosis, 

diagnosis of, difficulty of diagnosis</trimed:collocation> 
<trimed:phraseologicalUnit></trimed:phraseologicalUnit> 


<trimed:synonym>analysis, examination, investigation, 
conclusion, interpretation</trimed:synonym> 
<trimed:hypernym></trimed:hypernym> 
<trimed:hyponym></trimed:hyponym> 
<basic:crossReference></basic:crossReference> 
<basic:context>Consequently, people with suspected 
hypertension have been required to undergo repeated mea- 
surements of their clinic BP on repeated clinic visits to confirm 
or refute the diagnosis of hypertension</basic:context> 
<basic:externalCrossReference>https://bit.ly/3n8ud0B 
</basic:externalCrossReference> 
<basic:source></basic:source> 
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<trimed:register>specialized</trimed:register> 
<trimed:commonName>diagnosis</trimed:commonName> 
<trimed:scientificName>diagnosis</trimed:scientificName> 
<trimed:mesh>https://bit.ly/2Z2P8da</trimed:mesh> 
<trimed:snomed>https://bit.ly/3BV8ZsW</trimed:snomed> 
<trimed:icpc2Code></trimed:icpc2Code> 
<trimed:icd10Code></trimed:icd10Code> 


</termSec> 
</langSec> 


<langSec xml:lang=“‘fr’’> 
<basic:definition>Connaissance que l’on peut avoir d'une 
maladie 

en observant les signes de celle-ci ; art du diagnostic.</ 
basic:definition> 
<basic:externalCrossReference>https://bit.ly/3pegwQk 
</basic:externalCrossReference> 
<basic:source></basic:source> 

<note></note> 
<trimed:semicAnalysis>/etude/maladie/symptome/medecine/ 
</trimed:semicA nalysis> 


<termSec> 
<term>diagnose</term> 
<trimed:identifier>TSF18068</trimed:identifier> 
<basic:transaction>Origine</basic:transaction> 
<basic:responsibility>etudiant TRA DFR</basic:responsibi- 
lity> 
<date>01/01/2018</date> 
<note></note> 


<min:partOfSpeech>nom</min:partOfSpeech> 
<basic:grammaticalGender>feminin</basic:grammati- 
calGender> 
<trimed:grammaticalNumber>singulier</trimed:grammati- 
calNumber> 


Mise en œuvre TBX 135 


<trimed:pronunciation>\djagno:z\</trimed:pronunciation> 
<trimed:etymology>Empr. au gr. proprement action de dis- 
cerner 

spec. terme de med. diagnose, diagnostic.</trimed:etymology> 
<trimed:variant></trimed:variant> 
<trimed:acronym></trimed:acronym> 
<trimed:fullForm></trimed:fullForm> 
<trimed:abbreviation></trimed:abbreviation> 
<trimed:derivative>diagnostic, diagnostique, diagnostiquer</ 
trimed:derivative> 


<trimed:collocation>faire une diagnose, effectuer une dia- 
gnose</trimed:collocation> 
<trimed:phraseologicalUnit></trimed:phraseologicalUnit> 


<trimed:synonym>diagnostic</trimed:synonym> 
<trimed:hypernym></trimed:hypernym> 
<trimed:hyponym></trimed:hyponym> 
<basic:crossReference></basic:crossReference> 


<basic:context>Les courbes de temperature (. . .) ne sont pas 
suffisamment typiques pour qu’elles puissent servir a la dia- 
gnose</basic:context> 
<basic:externalCrossReference>https://bit.ly/3pegwQk 
</basic:externalCrossReference> 
<basic:source></basic:source> 


<trimed:register>specialise</trimed:register> 
<trimed:commonName>diagnose</trimed:commonName> 
<trimed:scientificName>diagnose</trimed:scientificName> 
<trimed:mesh>https://bit.ly/2Z2P8da</trimed:mesh> 
<trimed:snomed>https://bit.ly/3BV8ZsW</trimed:snomed> 
<trimed:icpc2Code></trimed:icpc2Code> 
<trimed:icd10Code></trimed:icd10Code> 


</termSec> 
</langSec> 
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<langSec xml:lang=“‘it’’> 

<basic:definition>Procedura consistente nell’interpretazione di 
segni e sintomi raccolti quali manifestazioni di un processo 
patologico in atto o pregresso<basic:definition> 
<basic:externalCrossReference>https://bit.ly/3DSh6Y8 
</basic:externalCrossReference> 
<basic:source></basic:source> 

<note></note> 

<trimed:semicAnalysis>/procedura/ 

/interpretazione/ /sintomi/ /malattia/</trimed:semicA nalysis> 


<termSec> 


<term>diagnosi</term> 

<trimed:identifier>TPLT 18168</trimed:identifier> 
<basic:transaction>origination</basic:transaction> 
<basic:responsibility>studente TPLT</basic:responsibility> 
<date>01/01/2018</date> 

<note></note> 


<min:partOfSpeech>sostantivo</min:partOfSpeech> 
<basic:grammaticalGender>femminile</basic:grammati- 
calGender> 

<trimed:grammaticalNumber>invariabile 
</trimed:grammaticalNumber> 
<trimed:pronunciation>dia—gno-—si</trimed:pronunciation> 
<trimed:etymology></trimed:etymology> 
<trimed:variant></trimed:variant> 
<trimed:acronym></trimed:acronym> 
<trimed:fullForm></trimed:fullForm> 
<trimed:abbreviation></trimed:abbreviation 
<trimed:derivative>diagnosticare, diagnostico, diagnosta</ 
trimed:derivative> 


<trimed:collocation>fare la diagnosi, 
formulare una diagnosi</trimed:collocation> 
<trimed:phraseologicalUnit></trimed:phraseologicalUnit> 
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<trimed:synonym>anamnesi, prognosi, analisi, accerta- 
mento</trimed:synonym> 
<trimed:hypernym></trimed:hypernym> 
<trimed:hyponym></trimed:hyponym> 
<basic:crossReference></basic:crossReference> 


<basic:context></basic:context> 
<basic:externalCrossReference>https://bit.ly/2Z5ZGrZ 
</basic:externalCrossReference> 
<basic:source></basic:source> 


<trimed:register>specializzato</trimed:register> 
<trimed:commonName>diagnosi</trimed:commonName> 
<trimed:scientificName>diagnosi</trimed:scientificName> 
<trimed:mesh>https://bit.ly/2Z2P8da</trimed:mesh> 
<trimed:snomed>https://bit.ly/3 BV8ZsW</trimed:snomed> 
<trimed:icpc2Code></trimed:icpc2Code> 
<trimed:icd10Code></trimed:icd10Code> 


</termSec> 
</langSec> 
</conceptEntry> 
</body> 
</text> 
</tbx> 


Cette instance montre la représentation TBX de la fiche terminologique 
multilingue du concept « A2 » désignée par les termes diagnosis (EN), 
diagnose (FR) et diagnosi (IT). Dans l'élément racine < tbx >, les infor- 
mations suivantes sont spécifiées : 


l. les espaces de noms (xmlns) du TBX-Core"*, du TBX-Min, du 
TBX-Basic et du TBX-TriMED ; 

2. la valeur de l'attribut type, c'est-à-dire le nom du dialecte 
TBX-TriMED ; 


130 C'est-à-dire urn: iso: std: iso:30042: ed-2 qui doit être utilisé comme espace de 
noms par défaut pour les instances de document TBX de tous les dialectes. 
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3. le style de l'instance, c'est-à-dire le style Data Category as 
Tag (DCT) que nous avons choisi"! ; 
4. lalangue de travail (xml:lang) du document. 


L'instance illustre comment les données terminologiques de TriMED 
sont organisées. Elle suit le métamodèle hiérarchique TMF : dans cet 
ordre, 1) < conceptEntry >, 11) < langSec >, et iii) « termSec > sont 
définis. 

Au niveau du concept, représenté par son identifiant (id — A2), les 
catégories de données fournies sont : /sphére conceptuelle/, /référence 
croisée/, /relation entre concepts/, /type de transaction/, /responsabilité/, 
/date/, /note/, /concept superordonné/, /concept subordonné/, /domaine/ 
et /sous-domaine/. Le même concept est ensuite exprimé en trois sec- 
tions de langue, chacune contenant les termes désignant le concept en 
anglais, en français et en italien. 

Au niveau de la langue, nous fournissons les informations sur 
la /définition/, /référence croisée externe/, /source/, /note/ et /analyse 
sémique/ du concept. Chaque « /angSec > contient un < termSec > 
avec le terme désignant le concept et d'autres catégories de données, 
telles que /partie du discours/, /genre grammatical/, /formes dérivées/ 
etc. Pour chaque catégorie de données de l'instance TBX, le module 
correspondant est spécifié dans le nœud XML. 


5.6.2 Position des catégories de données 


La norme ISO-30042 : 2019 définit, enfin, les contraintes de position- 
nement des catégories de données pour chaque niveau du métamodèle 
TMF. En général, les catégories de données les plus génériques ont 
un certain degré de liberté en termes de positionnement. Par exemple, 
la /définition/ peut étre placée à la fois au niveau du concept et au niveau 
de la langue, tandis que les informations descriptives du terme, telles 
que le /nombre grammatical/ ne doivent étre placées qu'au niveau de la 
section de terme. 


131 La norme permet de choisir entre le style DCT et DCA (Data Category as Attri- 
bute). Les différences entre les deux sont illustrées au lien suivant : https://www. 
tbxinfo.net/dca-v-dct/. 
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core | min : basic trimed 


© ConceptEntry 


i subjectField i 


OO © langSect 


OOO Q termSect [puc | 


1 externalCrossReference 


Image 5.5 — Position des catégories dans TriMED 


Dans l'image 5.5, nous montrons les catégories de données de 
TriMED associées à chaque niveau hiérarchique de la structure TMF 
(concept, langue et terme) et les modules TBX auxquels les catégories 
appartiennent (Core, Min, Basic et Trimed). Les catégories ont été posi- 
tionnées à l'aide des indications fixées par la norme oü les niveaux de 
contraintes sont explicites. Pour ces catégories sans restrictions, nous 
avons volontairement décidé leur niveau de positionnement. Les caté- 
gories qui apparaissent au niveau du concept concernent des informa- 
tions générales de type administratif sur l'entrée terminologique, telles 
que : /date/, /note/, /type de transaction/, /responsabilité/, /référence 
croisée/ et /identifiant du concept/. D'autres catégories qui devraient 
être partagées par toutes les langues sont fournies toujours au niveau 
conceptuel comme : /domaine/, /sous-domaine/, /sphére conceptuelle/, 
/relation entre concepts/ /concept superordonné/ et /concept subor- 
donné/ Au niveau de la langue, les catégories fournies sont : /note/, 
/définition/, /analyse sémique/, /référence croisée externe/ et /source/. 
En particulier, nous avons choisi de positionner la catégorie de la /défi- 
nition/ au niveau de la langue (et pas au niveau du concept comme, 
par exemple, dans la ressource TermScience de Khayari et al. (2006)) 
afin de ne pas attribuer une identité linguistique à un concept dont la 
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signification devrait être équivalente pour toutes les langues analy- 
sées dans l'entrée terminologique. Si la définition avait été placée au 
niveau du concept, une langue arbitraire aurait dû être choisie pour 
sa représentation. Au lieu de cela, placer la définition au niveau de la 
langue permet de l'exprimer dans chacune des langues de travail de 
la ressource (anglais, italien et frangais). Ainsi, le concept reste une 
entité super partes indépendante de toute attribution linguistique privi- 
légiée'?, Enfin, une telle décision permet de saisir, au niveau inférieur 
à la section langue, tous les termes (un par section de terme) qui cor- 
respondent exactement à cette définition avec toutes les catégories de 
données décrites précédemment. De cette facon, un concept peut étre 
exprimé dans une langue par le truchement de termes équivalents véhi- 
culant la même signification. 

Cependant, le probléme de la gestion des termes partiellement 
synonymes n'est toujours pas résolu. Par exemple, si nous considérons 
les termes « fiévre » et « pyrexie », nous pouvons sans aucun doute dire 
que ceux-ci véhiculent la même signification, c'est-à-dire l'augmenta- 
tion de la température corporelle. Toutefois, les termes n'auront pas 
les mêmes contextes d'occurrence, car ils appartiennent à des registres 
linguistiques différents : « pyrexie » comme nom scientifique, « fiévre » 
comme nom populaire. Or, si les conditions de synonymie prévoient 
1) l'équivalence de signification et 2) leur substituabilité dans n'im- 
porte quel contexte (Jezek, 2005), les termes « pyrexie » et « fiévre » 
ne peuvent pas étre traités en tant que synonymes purs dans la méme 
entrée terminologique. Ces types de considérations nous permettent de 
mener des réflexions sur certains aspects formels de la normalisation 
de la structure d'une ressource terminologique numérique. À l'heure 
actuelle, nous avons décidé de gérer ce probléme en renseignant autant 


132 Une autre solution qui aurait pu être adoptée est celle de 1) formuler des défini- 
tions ontologiques formelles indépendantes de la langue à positionner au niveau 
du concept, et 2) développer ou mettre à jour des définitions en langage naturel 
à positionner au niveau de la langue. À l'heure actuelle, nous n'approfondissons 
pas cette question car au-delà de la portée du projet de recherche, cependant 
nous renvoyons le lecteur intéressé par ce sujet aux publications suivantes : 
Roche (2015) et, en particulier, pour le domaine médical (sous-domaine endo- 
métriose) les articles liés au projet EndoTerm de Carvalho et al. (2018) ; Roche et 
al. (2019). 


Application Web TriMED 141 


de catégories de données que possible afin de classer les différents phé- 
nomènes linguistiques (notamment la variation terminologique). Un 
espace particulier est consacré aux notes du terminologue qui peuvent 
être saisies au niveau conceptuel, linguistique et terminologique. 


5.7 Application Web Tri MED 


Après avoir décrit la conception de la ressource et l'organisation des 
données selon les principes de la « terminologie FAIR », nous consa- 
crerons cette section à la présentation iconographique de l'application 
Web de la ressource TriMED consultable en ligne par le grand public?. 
En particulier, nous analyserons les aspects de visualisation et d'inte- 
raction dans une perspective inter- et intra-linguistique des trois caté- 
gories d'utilisateurs identifiées. Comme nous l'avons avancé dans les 
sections précédentes, la ressource a été conçue afin de : 


l. aider les patients à comprendre correctement les informations 
médicales, compte tenu de l'aspect de la variation diastratique 
de la terminologie ; 

2. soutenir le traducteur dans le processus de traduction spécia- 
lisée en fournissant un cadre sur le comportement syntaxique, 
sémantique et phraséologique du terme source et de son tra- 
duisant en langue cible ; 


133 Toutes les captures d'écran illustrées dans les sections suivantes ont été prises le 
21/10/2021 et proviennent du site Web du projet : https://purl.org/trimed 
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€ TriMED - Medical Termbase 


La base de données terminologique médicale multilingue pour tous. 


Patient Traducteur Médecin 
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Image 5.6 — Page d’accueil TriMED 


3. fournir un point d’accès unique pour la consultation des pro- 
fessionnels de la santé aux autres terminologies, nomencla- 
tures ou codes de classification internationaux généralement 
utilisés par des experts. 


L'application Web de TriMED, implémentée à l’aide du code source fourni 
par Vezzani et al. (2018) avec le package Shiny R (Chang et al., 2021), 
a été développée au sein du groupe de recherche Information Manage- 
ment System"* du Département de Génie de l'Information de l’ Univer- 
sité de Padoue. 

La ressource TriMED est accessible en ligne via l'application Web 
disponible au lien suivant : https://purl.org/trimed. L'image 5.6 cap- 
ture la page principale de l'application Web en frangais. À partir de 
cette visualisation, l'utilisateur peut sélectionner différents onglets qui 
permettent d'accéder à différentes informations liées à la conception 
et à la mise en œuvre de la ressource. À partir de l'onglet de la page 


134 http://ims.dei.unipd.it. 
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À propos 


@ TriMED - Medical Termbase 


La base de données terminologique médicale multilingue pour tous 


Projet 


Personnes 


Image 5.7 — À propos de TriMED 


d'accueil, les utilisateurs peuvent sélectionner l’une des trois catégo- 
ries de consultation, puis accéder aux trois interfaces qui fournissent 
différents sous-ensembles d'informations linguistiques en fonction de 
l'identification de l'utilisateur. L'accés est autorisé en cliquant directe- 
ment sur l'image respective ou sur l'étiquette attribuée à chaque caté- 
gorie d'utilisateur : « Patient », « Traducteur » et « Médecin ». En outre, 
les utilisateurs peuvent accéder directement à l'interface qui leur est 
dédiée en cliquant directement sur l'onglet « Utilisateurs ». 

Dans la section suivante (image 5.7), des informations descrip- 
tives sont fournies concernant la nature du projet, le nombre de fiches 
terminologiques actuellement disponibles sur la ressource, et les 
personnes qui ont contribué à son développement. Les informations 
concernant les collaborations et les publications relatives au projet sont 
fournies sur la méme page, mais ne figurent pas dans l'image 5.7 pour 
des raisons d'espace. En particulier, le projet TriMED est promu par 


135 Le nombre fourni est constamment mis à jour au fur et à mesure de la compila- 
tion des fiches qui est toujours en cours. 
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l'Unité de Coordination de Terminologie (TermCoord)'** de l'Union 
européenne avec laquelle une collaboration est en cours concernant le 
projet nommé « Terminologie Sans Frontières »!*” qui reflète et sou- 
tient l'objectif de la Direction Générale de la Traduction (DG TRAD) 
du Parlement européen de communiquer avec les citoyens dans une 
langue compréhensible. Le développement de la ressource Tri MED est 
également soutenu par le projet ExaMode (Extreme-scale Analytics via 
Multimodal Ontology Discovery € Enhancement project), financé 
par l'Union européenne dans le cadre du programme Horizon 2020'?, 

Depuis la page principale de la ressource TriMED, il est possible 
d'accéder directement au « Répertoire des Catégories de Données », 
implémenté selon la norme ISO-12620 de 2019, dont l'application Web 
sera discutée dans la section 5.8 de ce chapitre. De plus, l'applica- 
tion Web fournit une recherche rapide des contacts dans la section 
« Contacts » et le « Journal des modifications » afin de conserver la 
traçabilité des dernières mises à jour de la ressource. Enfin, le dernier 
onglet d'affichage de la barre horizontale permet de choisir la langue 
de navigation de la ressource : actuellement, Tri MED est une ressource 
multilingue envisageant l'exploration en ligne en frangais, en anglais et 
en italien, mais des développements futurs sont envisagés. 


5.71 Utilisateurs 


Les utilisateurs qui s'identifient dans une des trois catégories peuvent 
accéder à l'interface qui leur est dédiée via l'onglet « Utilisateurs », ou 
directement via la page d'accueil en cliquant sur l'image ou sur l'éti- 
quette correspondante. Les URL suivantes correspondent aux liens 
directs vers l'interface du : 


— Patient : https://purl.org/trimed/patient 
— Traducteur : https://purl.org/trimed/translator 
— Médecin : https://purl.org/trimed/physician 


136 https://termcoord.eu. 

137 https://yourterm.org. 

138 https://www.examode.eu. 

139 https://ec.europa.eu/programmes/horizon2020/en. 
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Dans les sous-sections suivantes, nous décrivons l'affichage et l’inte- 
raction de l'utilisateur avec le systéme en ligne. 


5.7.1.1 Le patient 


Pour gérer le probléme de la variation diastratique dans les dialogues 
entre les experts et les non-experts et pour faciliter la compréhension 
des informations médicales, les patients peuvent rechercher un terme 
technique puis consulter le terme populaire correspondant et sa défini- 
tion, si disponible. 

Un patient à la recherche d'informations sur un terme populaire 
commence la requéte en sélectionnant une des langues disponibles 
(anglais, frangais ou italien), puis en saisissant le terme dans le champ 
de recherche. Le système — grâce à la fonction selectInput? du pac- 
kage Shiny RStudio — filtre automatiquement les mots, caractère par 
caractère, et affiche les alternatives possibles dans la boite. Nous avons 
décidé d'afficher à la fois le terme populaire et le terme technique lors de 
la recherche pour fournir aux utilisateurs un retour immédiat. Lorsque 


TriMED Patient 


Langue Recherche 


mm— Dr — 


Définition 


Maladie infectieuse, contagieuse et épidémique, due à un virus, caractérisée par une éruption sur la peau de taches rouges peu saillantes, 
apparaissant successivement à la téte, sur le corps, puis sur les membres. 


Nom scientifique Nom populaire 


Rougeole premiére maladie 


Image 5.8 — Interface « Patient » 


140 https://shiny.rstudio.com/reference/shiny/0.12.2/selectInput.html. 
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l'utilisateur sélectionne le terme, la définition et les informations sur la 
variation terminologique sont affichées sur la page. 

Dans l'image 5.8, nous avons simulé la recherche d'un patient qui 
sélectionne la langue frangaise et demande au systéme l'équivalent 
populaire du terme scientifique « rougeole ». La ressource renvoie en 
sortie l'équivalent couramment utilisé par le grand public « première 
maladie » et sa définition « Maladie infectieuse, contagieuse et épi- 
démique, due à un virus, caractérisée par une éruption sur la peau de 
taches rouges peu saillantes, apparaissant successivement à la téte, sur 
le corps, puis sur les membres », extraite à partir du portail lexical du 
Centre National de Ressources Textuelles et Lexicales (CNRTL)“!. 


5.7.1.2 Le traducteur 


Dans la sous-section 5.1.2 précédente, nous avons présenté plusieurs 
aspects (plus ou moins problématiques) liés à la traduction de textes 
médicaux. Dans ce contexte, avec la base de données TriMED, nous nous 
efforcons de fournir un outil utile à l'usage des traducteurs technico- 
scientifiques afin de soutenir le processus de traduction spécialisée. Le 
modèle de fiche terminologique consultable par le traducteur comprend 
42 catégories de données différentes pour le terme source et le terme 
cible, afin d'offrir un cadre complet sur le comportement syntaxique, 
sémantique et phraséologique des termes. 

Dans l'image 5.9, nous simulons la recherche d'un traducteur qui 
sélectionne la paire de langues de travail anglais (langue source) et ita- 
lien (langue cible), et saisit dans la boite de recherche le terme objet 
d'analyse en langue source : scintigraphy. Le système renvoie auto- 
matiquement en sortie une fiche bilingue contenant des informations 
concernant le terme de départ du cóté gauche (scintigraphy) et le tra- 
duisant (scintigrafia) du cóté droit. Compte tenu du grand nombre d'in- 
formations terminologiques consultables, la fiche a été organisée en 
six panneaux fournissant différentes catégories de données résumées 
ci-dessous : 


141 https://cnrtl.fr/definition/rougeole. 
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TriMED Translator E 


Q Search 


<p> XM 


rs 


Source Language Target Language 


EN - m 


Live Search 


Live search 


scintigraphy 


Term (source) Term (target) 
scintigraphy scintigrafia 
Categories 
Formal features Semantics Variation Usage Admin (concept 
Partofspeech Part of speech 


Noun Sostantivo 


Image 5.9 — Interface « Traducteur » 


« Caractéristiques formelles » : /partie du discours/, /genre 
grammatical/, /nombre grammatical/, /prononciation/, /étymo- 
logie/ et /formes dérivées/ ; 

« Sémantique » : /définition/, /référence croisée externe /, 
/source/, /note/ et /analyse sémique/ ; 

« Variation » : /variante orthographique/, /acronyme/, /expan- 
sion/, /abréviation/, /synonyme/, /hyperonyme/, /hyponyme/, 
/référence croisée/, /nom commun/ et /nom scientifique/ ; 

« Utilisation » : /contexte/, /référence croisée/, /source/, /collo- 
cation/, /unité phraséologique/ et /registre/ ; 

« Informations administratives sur le concept » : / identifiant 
du concept/, /date/, /note/, /responsabilité/, /type de transaction/, 
/sphére conceptuelle/, /domaine/, /sous-domaine/, /relation 
entre concepts/, /référence croisée/, /concept superordonné/ et 
/concept subordonné/ ; 
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6. «Informations administratives sur le terme » : identifiant du 
terme, /type de transaction! /responsabilité/, /date/, /note/. 


L'image 5.10 montre un exemple d'affichage du panneau « Usage » de 
la fiche terminologique bilingue Scintigraphy — Scintigrafia. Le traduc- 
teur peut ainsi accéder facilement au contexte dans lequel le terme est 
utilisé, revenir à sa source et, comme le montre l'image, consulter les 
cas de collocations récurrentes avec les deux termes analysés. 


Categories 
eature emant Variat Usage 
Context Context 
[...]interpretation of pediatric skeletal scintigraphy requires knowledge of [...] La scintigrafia miocardica prevede la somminist ee di un radio 
the ossification pattern, because there is no uptake in nonossified structures farmaco che si fissa a livello del muscolo cardiaco; le immagini acquisite da 
and high uptake in the physis and apophysis. un'apparecchiatura chiamata gamma-camera vengono elaborate e 
Cross reference (context) Cross reference (context) 
https://www.ajronline.org/doi/10.2214/AJR. 10.4562 https://fondazionehumanitasricerca.it/enciclopedia/visite-ed-esami/scintigr 
Source (context) Source (context) 
Collocation Collocation 
Thyroid scintigraphy; skeletal scintigraphy, renal scintigraphy, Scintigrafia sequenziale; scintigrafia ossea; scintigrafia tiroidea; scintigrafia o 


Image 5.10 — Panneau « Usage » fiche bilingue Scintigraphy — Scintigrafia 


La ressource TriMED se distingue d'autres ressources sur le 
marché non seulement par la quantité d'informations fournies, mais 
également par la possibilité offerte aux traducteurs professionnels de 
réutiliser les données terminologiques. Pour répondre aux principes 
formulés à travers la modélisation conceptuelle de la « terminologie 
FAIR », l'application permet au traducteur d'afficher et de télécharger 
le format TBX standard de la fiche, compatible avec tout logiciel de 
traduction assistée par ordinateur (TAO) qui prend en charge la norme 
ISO-30042 du 2019. 
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TriMED Translator = 


Show XML structure of the terminological record 


<?xml version="1.8" encoding-"UTF-8"T» 
<tbx xmlns:tbx3="urn: iso: std: 150:36042:ed-2" xminsiein="http://ww. tbxinfo.net/ns/min" xelns:basice"http://www. tbxinfo.net/ns/ 
basic" xmlns:trimeds"nttp://www.trimed.org/ns/sample” types"TBX-TriMED" styles"dct™ xnl:langs"en"» 
«tbxHeader» 
«fileDesc» 
<sourcedesc> 
<p>An instance of the TriMED termbase consisting of one concept entry.</p> 
«/sourceDesc» 
«/fileDesc» 
«/ tbxHeader» 
<text> 
<body> 
<conceptEntry> 
<trimed: conceptIdentifier>A13</trined:conceptIdent ifier> 
<trined: conceptualSphere»A«/t rísed: conceptualSphere» 
eterence-NA</basic:crossReference> 
ptRelat iomNA«/t ríned: conceptfe lat Lon» 
:transaction>Originat ion</basic:transaction> 
pons ibi Li ty»FV«/bas c: responsibility> 
1note»NA«/basic:note» 
<trimed: superordinateConcept»NA«/trimed: superordinateConcept» 
«tried: subordinateConcept»NA«/trimed: subordinateConcept> 
«nin: subjectFieldoMedicinec/nin:subjectlield» 
«trised: subDomain>Rad 10 logy«/t r'imed:subDosa in» 
«langSec xml: Lang="en"> 
*basic:definition»a diagnostic technique in which a two-dimensional picture of internal body tissue is produced throug 
«/basicidefinition» 
«basic:externalCrossReference»https: / /www. merrian-webster. con/dictionary/scintigraphy«/basic:externalCrossReference» 
<bas ici source>NA</basic:source> 
«note»NA«/note» 


<trimed: semicAnalysis»/diagnostic technique/ /two-dimensional picture/ /tissues/ /detection/ /radioactive substance/</ 
<termsec> 

<termscintigraphy</term 

<trined: identifier>TPLT18055</t rimed: ident ifier> 


Image 5.11 — Affichage de la fiche en format TBX 


À partir de la barre latérale gauche de l'interface, le traducteur 
peut sélectionner l'une des trois options de visualisation : 

« Rechercher », « XML » et « Télécharger ». En cliquant sur l'éti- 
quette « XML », l'utilisateur pourra accéder à la fiche bilingue consul- 
tée qui apparaîtra automatiquement dans le format standard (image 
5.11) et pourra être téléchargée localement pour être réutilisée. 


5.7.1.3 Le médecin 


L'interopérabilité des ressources est une exigence fondamentale lors de 
l'adoption d'une approche FAIR de la terminologie. Dans ce contexte, 
l'un des objectifs les plus ambitieux de TriMED est de fournir un 
systeme capable de collecter des informations médicales à partir de 
plusieurs sources, via un point d'accés unique. À ce propos, lors de 
la consultation de la base de données TriMED, les médecins peuvent 
rechercher un terme technique dans l'une des trois langues de travail. 
Ils peuvent ainsi accéder aux terminologies, aux ontologies et aux sys- 
témes de classification médicale standard, 
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tels que les ressources Medical Subject Headings (MeSH)*? et Sys- 
tematized Nomenclature of Human and Veterinary Medicine — Clinical 
Terms (SNOMED CT)“. 

Dans l’image 5.12, nous montrons la visualisation de l’interface 
consultable par le médecin. Tout d’abord, l’utilisateur peut sélection- 
ner la langue de travail puis, comme dans le cas de l’interface consa- 
crée au patient, il peut saisir le terme dans le champ de recherché : le 
système filtrera automatiquement les mots et les caractères indiquant 
les options possibles pour l'utilisateur. Le système établira automa- 
tiquement le lien avec d'autres ressources externes et fournira un 
accès direct au méme terme et/ou à la combinaison de termes qui 
sont corrélés à la recherche principale. L'exemple fourni dans l'image 
5.12 simule l'expert recherchant le terme anglais Diphtheria. La sor- 
tie automatique de la ressource fournira à l'utilisateur les liens pour 
accéder directement à d'autres informations médicales sémanti- 
quement liées, telles que Diphtheria Antitoxin, Diphtheria Toxin, et 
Diphtheria Toxin Receptor, fournies, dans ce cas spécifique, par la res- 
source MeSH terms. À l'heure actuelle, les liens directs des termes 
contenus dans la ressource TriMED sont garantis avec les ressources 
MeSH et SNOMED. Nous sommes en train de mettre en œuvre un 
systeme qui permet également la cartographie automatique des 
codes internationaux de classification des maladies de la CIM10" et 
ICPC2'*, Enfin, le système montre à l'utilisateur au bas de la page les 
termes qui désignent le concept dans les trois langues de travail. 


142 https://meshb.nlm.nih.gov/search. 

143 http://www.snomed.org. 

144 https://www.who.int/classifications/icd/icdonlineversions/en/. 
145 https://www.who.int/classifications/icd/adaptations/icpc2/en/. 
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TriMED Physician = 


Language Search 


MeSH SNOMED 1CD10 1CPC2 External resources 


resource label 
http://id.nim.nih.gov/mesh/T012655 Diphtheria 
http://id.nim.nih.gov/mesh/T012656 Diphtheria Antitoxin 
http://id.nim.nih.gov/mesh/T012659 Diphtheria Toxin 
http://id.nim.nih.gov/mesh/T858653 Diphtheria Toxin Receptor 


http://id.nlm.nih.gov/mesh/T858654 Diphtheria Toxin Receptors 


English term French term Italian term 


Diphtheria Diphtérie Difterite 


Image 5.12 — Interface « Médecin » 


5.8 Application Web RCD 


Dans la section 5.5 de ce chapitre, nous avons argumenté et illustré la 
conception et l'implémentation du Répertoire de Catégories de Don- 
nées (RCD) de TriMED qui, à notre connaissance, est le premier réper- 
toire implémenté selon la norme ISO-12620 de 2019. Cet outil a été 
conçu pour la documentation des métadonnées terminologiques de Tri- 
MED : il contient une liste descriptive des 42 catégories de données 
présentes dans la ressource multilingue“. En particulier, le répertoire a 
été élaboré afin de garantir la trouvabilité, l'accessibilité, la réutilisabi- 
lité et l'interopérabilité des (méta)données terminologiques conformé- 
ment à la formulation des principes FAIR appliqués à la terminologie. 
L'application Web a été implémentée à l'aide du package Shiny R 
(Chang et al., 2021) et est disponible en ligne directement à partir de 


146 La liste est disponible en ligne et sous forme de tableau dans l'Annexe A men- 
tionné ci-dessus. 
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la page d'accueil de la ressource TriMED en cliquant sur l'onglet de 
référence « Répertoire des Catégories de Données », ou au lien direct 
suivant : http://purl.org/trimed/dcr 

Dans l'image 5.13, nous montrons un exemple de visualisation pour 
une nouvelle catégorie de données que nous avons introduite dans Tri- 
MED, à savoir l'/analyse sémique/. Comme pour l'interface principale 
de TriMED, l'utilisateur peut tout d'abord sélectionner l'une des trois 
langues de travail. Ensuite, il peut saisir la dénomination de la catégo- 
rie dans la boite de recherche : le systéme filtrera automatiquement les 
mots et les caractéres indiquant les options possibles pour l'utilisateur. 
Une fois sélectionnée la catégorie de données, le systéme affichera en 
sortie automatique ce qui est défini par la norme ISO-12620 comme 
une « spécification » de la catégorie de données, c'est-à-dire une col- 
lection de toutes les métadonnées utiles pour son utilisation lors de la 
compilation d'une fiche terminologique. 


Data Category Repository - TiMED 


Langue Description XML 
fr - 
PID: http://purl.org/trimed/dcr/dc/dc- 1 
Catégorie de donnée 
Identifiant: semicAnalysis 
Analyse sémique = Module: Trimed 


Niveau (TMF): langSec 

Classification: <descrip> 

Typologie de contenu: chaîne de caractères 
Valeur(s): NA 


Description: L'analyse sémique d'une production sémiotique, un texte par exemple, vise à en dégager les sèmes, 
c'est-à-dire les éléments de sens, à définir leurs regroupements (isotopies et molécules) et à stipuler les relations 
entre ces regroupements (relations de présupposition, de comparaison, etc., entre isotoples). 

Explication: NA 

Note: NA 

Exemple: Pathologie: /étude/ /médecine/ /développement/ /cause /symptóme/ /maladie/. Maladie: /altération/ 
/santé/ /étre vivant/ /signe/ /symptóme/ /causes internes/ /causes externes/ /évolution/ /organisme/. 


& Download CSV 


Image 5.13 — Interface RCD : catégorie de données /analyse sémique/ 


Le répertoire de Tri MED fournit également à l'utilisateur un sys- 
téme d'affichage multilingue complet. En ce sens, des informations 
telles que « description », « explication », « notes » et « exemples » sont 
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adaptées en fonction de la langue de consultation de l’utilisateur (voir 
image 5.13). Enfin, ce type d’affichage multilingue se reflète également 
dans la génération automatique du fichier XML : comme le recom- 
mande la norme, l’utilisateur peut télécharger et réutiliser une spécifi- 
cation de la catégorie de données dans un format lisible par la machine 
et adapté à sa langue de travail. 


5.9 Collection terminologique 


Les utilisateurs qui consultent la ressource TriMED auront donc accès 
à une collection de termes qui relèvent de différentes sphères concep- 
tuelles du domaine médical. Les travaux sur la population de la base de 
données terminologique ont commencé en 2018 et se poursuivent grâce 
au développement de projets terminologiques et de traduction spéciali- 
sée : en conséquence, les chiffres fournis dans cette section augmentent 
constamment. À l’heure actuelle, la base de données recueille un total 
de 1.135 fiches terminologiques multilingues affichées pour les trois uti- 
lisateurs!”. Le nombre de fiches normalisées disponible par langue est : 


— 436 pour l'anglais ; 
— 410 pour le français ; 
— 289 pour l'italien. 


Les fiches terminologiques ont été élaborées gráce à la précieuse colla- 
boration de différents groupes de travail composés d'étudiants des cours 
de Tecnologie per la traduzione'* (Systèmes de traduction assistée par 
ordinateur) et Traduzione specializzata francese 2° (Traduction spé- 
cialisée frangaise 2), pendant les années académiques 2017/2018, 2018/ 
2019, 2019/2020, dans le cadre du Master en Langues Modernes pour 


147 Dernière mise à jour 21/10/2021. 
148 https://didattica.unipd.it/off/2019/LM/SU/IF0314/000ZZ/SUP6075958/N0. 
149 https:/At.didattica.unipd.it/off/2018/LM/SU/IF0314/000ZZ/SU P6076038/N0. 
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la Communication et la Coopération internationales de l’Université de 
Padoue”. 

Le travail de compilation des fiches a été effectué lors d'expériences 
visant à étudier l'utilisation de la ressource Tri MED d'un point de vue 
méthodologique et didactique comme support au processus de traduc- 
tion spécialisée. En outre, de nombreuses expériences ont été menées 
pour l'accomplissement d'une táche liée au domaine de la Recherche 
d'Information consistant à reformuler les requétes médicales en adop- 
tant une approche terminologique pour effectuer des revues systéma- 
tiques. Pour la description détaillée des expériences menées jusqu'à 
présent et les spécifications relatives aux corpus textuel utilisés, au pro- 
cessus d'extraction terminologique et à la compilation de fiches multi- 
lingues, nous renvoyons le lecteur aux publications suivantes : Vezzani 
et Di Nunzio (2019b,a) ; Di Nunzio et Vezzani (2018). Dans cette sec- 
tion finale, nous nous limitons à l'aspect de l'affichage des données ter- 
minologiques pour les utilisateurs. 

Le tableau 5.4 suivant rassemble des exemples de termes présents 
au sein du TriMED visibles par les utilisateurs et pour lesquels des 
fiches terminologiques multilingues ont été compilées. Le tableau pré- 
sente les termes dans les trois langues, ordonnés selon le critére de 
classification des sphéres conceptuelles dont la méthodologie de mise 
en ceuvre a été décrite dans la sous-section 5.4.2 de ce chapitre. 


150 https://elearning.unipd.it/scienzeumane/course/view.php?id=4226. 
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Tableau 5.4 — Exemples de termes dans TriMED classés par sphères conceptuelles 


Sphère ID Français Anglais Italien 
conceptuelle Concept 
A - Diagnostic A2 diagnostic diagnosis diagnosi 
A - Diagnostic A18 test de détec- rapid antigen test rapido di rileva- 
tion rapide detection test mento dell'antigene 
d’antigène 
A - Diagnostic A23 imagerie imaging diagnostica per 
immagini 
A - Diagnostic A97 signe signs segno 
A - Diagnostic A98 symptóme symptom sintomo 
B - Épidém. Bl éradiquer eradicate debellare 
et prévention 
B - Épidém. B2 cocooning cocoon strategy strategia del bozzolo 
et prévention 
B - Épidém. B4 prévention prevention prevenzione 
et prévention 
B - Épidém. B5 patient zéro patient zero paziente zero 
et prévention 
B - Épidém. B6 autoévalua-  selfmonitoring automonitoraggio 
et prévention tion 
C - Pathologie C2 cancer du col cervical cancer tumore del collo 
utérin dell'utero 
C - Pathologie C3 varice varix varice 
C - Pathologie C5 thrombose thrombosis trombosi 
C - Pathologie C6 typhoide typhoid tifoide 
C - Pathologie C9 pneumonie communiy- polmonite acquisita 
communau- acquired pneu- in comunità 
taire monia 
D - Spécialités DI cytologie cytology citologia 
médicales 
D - Spécialités D3 virologie virology virologia 
médicales 
D - Spécialités D4 épidémiologie epidemiology epidemiologia 
médicales 
D - Spécialités D5 biologiste biologist biologo 
médicales 
D - Spécialités D7 bactériologie bacteriology  batteriologia 
médicales 


Suite à la page suivante 
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Tableau 5.4 suite de la page précédente 


Sphère ID Français Anglais Italien 

conceptuelle Concept 

E - Pharmacologie E2 florbetapir florbetapir florbetapir 

E - Pharmacologie E3 solution saline saline soluzione salina 

E - Pharmacologie E15 vaccin vaccine vaccino 

E - Pharmacologie E16 couverture vaccination copertura vaccinale 
vaccinale coverage 

E - Pharmacologie E40 médicament drug farmaco 

G - Anatomie Gl plaquette san- platelet piastrina 
guine 

G - Anatomie G2 rate spleen milza 

G - Anatomie G4 foie liver fegato 

G - Anatomie G5 veine porte portal vein vena porta 

G - Anatomie G11 colonne verté- spine colonna vertebrale 
brale 

H - Thérapie H1 réparation endoluminal riparazione endolu- 
endoluminale repair minale 

H - Thérapie H2 résécabilité  resectability resecabilità 

H - Thérapie H3 drainer drain drenare 

H - Thérapie H4 drain drain drenaggio 

H - Thérapie H5 résection pancreatic resezione pancrea- 
pancréatique resection tica 


Le regroupement par sphères conceptuelles a été effectué a poste- 
riori : une fois le corpus de travail sélectionné et la terminologie extraite, 
nous avons donc procédé à une classification par abstraction selon la 
nature sémantique des termes. Comme nous l’avons déjà évoqué, la clas- 
sification par sphères conceptuelles et les termes qui peuplent chaque 
groupe ont été revus et validés par un médecin spécialiste. À cet égard, 
1l est important de souligner que la classification est encore dans un état 
approximatif et doit être affinée. Parmi les difficultés rencontrées dans 
la formulation de cette cartographie conceptuelle, il est apparu néces- 
saire d'établir comme travaux futurs des « sphères — passerelles » inter- 
sécables qui permettent la présence simultanée du méme terme dans 
plusieurs sphéres conceptuelles : par exemple, le terme « dépistage » 
peut être classé à la fois comme appartenant au diagnostic (sphère A) 
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et à la prévention (sphère B). Au moment présent, nous nous sommes 
concentrés sur la définition des sphères conceptuelles délimitées, mais 
étendues (la catégorie concernant la pathologie, par exemple, comprend 
à la fois les agents pathogènes, tels que les virus et les bactéries, et les 
pathologies proprement dites) pour le regroupement de tous les termes 
sémantiquement proches et pour l'attribution d'identificateurs uniques 
au niveau conceptuel qui permettent la gestion automatique des dési- 
gnations multilingues pour le méme concept. 

Quant à la nature morphologique des termes, la collection de Tri- 
MED est principalement composée de noms sous la forme de termes 
simples (un seul mot-forme) et de termes complexes (plusieurs mots- 
formes). L'application Web consultable en ligne contient également 
une modeste collection d'adjectifs analysés individuellement et iden- 
tifiés dans la sphére conceptuelle provisoire « F — Qualificateurs », par 
exemple : « non invasif/ve », « congénital/e », « chronique », « virulent/ 
e ». Compte tenu de leur nature, les adjectifs peuvent étre classés en dif- 
ferentes sphères conceptuelles selon le nom auquel ils sont associés : on 
peut parler à la fois de « maladie non invasive » (sphére conceptuelle 
C — Pathologie) et d'« intervention non invasive » en référence à la pra- 
tique chirurgicale (sphère conceptuelle H — Thérapie). Par conséquent, 
nous opérons à rebours pour revenir au contexte d'utilisation du terme 
dans le corpus de travail afin de l'associer au nom qui permettra de 
positionner le terme composé ainsi formé dans la sphére conceptuelle 
de référence. 

Enfin, en ce qui concerne l'état de révision, nous procédons à un 
nettoyage global de la forme et du contenu des fiches terminologiques 
visibles par les utilisateurs. Les normes ISO sur lesquelles repose notre 
proposition de modélisation conceptuelle ont été publiées aprés le début 
des travaux de collecte des termes et de compilation des fiches termi- 
nologiques. En ce sens, nous nous occupons actuellement d'harmoni- 
ser la forme de certaines catégories de données, en particulier celles 
pour lesquelles il existe une dénomination ou un format standard. Pour 
conclure, nous prévoyons, en fonction des ressources disponibles, une 
phase de validation effectuée par des experts du domaine en ce qui 
concerne les informations médicales fournies dans les fiches. 
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5.10 Conclusion 


Ce long chapitre contient un parcours de recherche doctorale qui ouvre 
de nombreuses et fructueuses perspectives d’avenir. L’enquête visant 
à formuler le paradigme de la « terminologie FAIR » nous a conduits 
à développer une ressource numérique multilingue et polyvalente qui 
promet d’être vivante dans les années à venir grâce, notamment, à la 
synergie des travaux menés par tous les collaborateurs impliqués dans 
le projet. 

À cette occasion, nous ne nous attardons pas sur les perspectives 
spécifiques de la ressource TriMED car sa description visait exclusive- 
ment à fournir au lecteur une étude de cas concrète sur l’application des 
principes de curation des données terminologique à l’ère numérique. 
D'un point de vue méthodologique, les orientations proposées peuvent 
en effet s'appliquer à toute autre ressource terminologique numérique 
conçue pour tout autre domaine de travail. Revenant donc à des aspects 
qui dépassent le cas particulier du Tri MED, le prochain chapitre visera, 
en guise de conclusion, une réflexion critique sur les aspects de FAI- 
Risation des données terminologiques numériques et jette les bases 
d'éventuelles implémentations futures à partir d'une structure de don- 
nées conforme au format standard TBX. 


6 Is it FAIR enough? 


Often when you think you're at the end of something, 
youre at the beginning of something else. 


Fred Rogers (1928—2003) 


L'étude de cas de la ressource numérique Tri MED permet de déve- 
lopper des réflexions sur les évolutions possibles et prometteuses en 
termes de FAIRisation des données terminologiques. Pour résumer 
ce qui précède, le paradigme de la « terminologie FAIR » englobe un 
ensemble de lignes directrices pour la conception et l'implémentation 
d'une ressource qui : 


l. suit un modèle structurel interopérable (TMF) ; 

2. permet l'accés aux données terminologiques via des proto- 
coles de communication standard ; 

3. fournit des (méta)données rigoureusement documentées et 
trouvables, à travers un répertoire (de catégories) de données ; 

4. garantit la réutilisation des données gráce à l'application de 
formats pour l'échange terminologique (TBX). 


À ce stade, la première réflexion à mener porte sur l'état d'avancement 
actuel du processus de FAIR sation de la ressource Tri MED illustrée ci- 
dessus. Comme nous l'avons vu à l'occasion de la description des prin- 
cipes FAIR et des données liées (sections 1.2.1, 1.2.2 et 3.1), l'attribution 
d'identifiants uniques et persistants (PID) pour chaque entité apparais- 
sant au sein d'une collection est configurée comme une étape essentielle 
afin de désambigüiser leur interprétation. Or, alors que pour les caté- 
gories de données présentes dans TriMED ces identifiants ont été attri- 
bués de manière unique et globale (en utilisant les PID disponibles sur 
DatCatInfo ou en créant des nouveaux pour les catégories non encore 
référencées), pour les autres données contenues dans la ressource ce 
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processus est toujours en cours de développement. En particulier, comme 
nous l'avons évoqué dans le chapitre précédent, les entités-concept et les 
entités-terme de la fiche terminologique de Tri MED sont associées à des 
identifiants alphanumériques uniques au sein de la ressource spécifique, 
mais non globaux par rapport à l'ensemble du Web sémantique. Dans 
la perspective d'une numérisation optimale de la ressource, ces codes 
seront ensuite transformés en identifiants globaux sous forme d'URI afin 
que les entités concernées puissent étre nommées de maniére unique sur 
le Web conformément aux principes des données liées (section 1.2.2). 
De cette facon, les données objet d'intérét ne seront pas uniques seu- 
lement par rapport au monde limité de la ressource terminologique en 
question, mais aussi respectivement à toute autre entité disponible sur le 
Web sémantique. Par ailleurs, toujours dans la vision de l'interrelation 
et de l'interopérabilité entre les données, il est possible dans ce cas de 
se référer aux identifiants de ces entités déjà existants sur d'autres res- 
sources (ontologies ou terminologies) actuellement publiées sur le Web. 
Le deuxiéme aspect à examiner concerne le format de représenta- 
tion des données. Comme nous l'avons vu, la norme ISO-30042 : 2019 
promeut l'adoption du format TBX basé sur le métalangage XML afin de 
faciliter l'échange de données terminologiques. Cependant, il est impor- 
tant de souligner que l'idée d'échange promue ne fait pas nécessairement 
référence à des données présentes sur le Web. En vue de rendre disponible 
une collection de données terminologiques au sein du Web, il est donc 
nécessaire de réaliser une étape supplémentaire de transformation du for- 
mat des données afin de se conformer aux standards du Web sémantique. 
En ce sens, nous avons mentionné au chapitre 1 que le modèle de données 
commun promu pour la modélisation de l'information sur le Web est le 
Resource Description Framework (RDF), en tant que standard d'échange 
et d'interrelation de données sur le Web. La transformation du format de 
représentation des données terminologiques de XML/TBX vers RDF est 
donc configurée comme un procédé avantageux à divers points de vue. 
Cette opération permet notamment de conformer la collection terminolo- 
gique aux principes des données liées, tirant ainsi tous les bénéfices que 
cet environnement peut générer en termes de découverte, de conserva- 
tion, d'interrelation et de réutilisation des données (Cimiano et al., 2020). 
À ce stade, on peut se demander pourquoi ne pas structurer les 
données terminologiques directement au format RDF. Pour répondre 
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à cette question, nous citons un extrait de l'article de (Cimiano et al., 
2015, p. 505) dans lequel est proposé un systéme de conversion de TBX 
vers RDF, que nous explorons dans les sections suivantes : 


it is important to mention that we are not proposing to replace TBX by a new 
format. In fact, we regard our work as providing an alternative serialization of 
terminologies in RDF format. We assume that terminologies will be natively 
stored and managed using the TBX data model, but that in addition they will 
be exposed in RDF to support the linking of terminologies across datasets, thus 
supporting the creation of the above mentioned ecosystem. 


En ce sens, nous soutenons l'idée que les données terminologiques en 
tant que telles sont nativement produites au format TBX comme stan- 
dard de référence pour la gestion terminologique. La transformation 
en RDF est configurée plutót comme une extension facultative et qui 
devient nécessaire si, à la base des besoins d'implémentation des res- 
sources, il y a la volonté de soutenir l'écosystéme des données liées et 
de bénéficier des avantages qui en découlent. 

Dans cette perspective, ce chapitre vise à illustrer les possibilités 
qui se présentent au terminologue numérique une fois arrivé au format 
de représentation TBX. Dans les sections suivantes, nous décrivons 
donc le standard RDF et les études actuellement menées en termes de 
transformation des données terminologiques. 


6.1 Resource Description Framework — RDF 


Le modèle de données de base derrière le Web sémantique et les don- 
nées liées est le Resource Description Framework (RDF). RDF est un 
standard développé par le World Wide Web Consortium (W3C) qui 
permet de décrire des ressources, principalement via des attributs et 
leurs relations avec d'autres ressources!*!. Ce modèle de données per- 
met de structurer les informations à l’aide de déclarations constituées 
d'un sujet, d'un prédicat et d'un objet. L'idée de base est que les choses 


151 https://www.w3.org/RDF/. 
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collecte 
base de données terminologiques ——— fiches terminologiques 


Sujet Prédicat Objet 


Image 6.1 — Exemple de graphe RDF 


décrites ont des propriétés, qui ont des valeurs, et que les ressources 
peuvent étre décrites par le biais de déclarations. RDF prescrit com- 
ment faire des déclarations sur les ressources, en particulier les res- 
sources Web, sous la forme d'expressions sujet-prédicat-objet. Les 
déclarations sont également appelées triplets, car elles ont toujours la 
structure sujet—prédicat—objet. 

Par exemple, dans la déclaration « une base de données terminolo- 
giques collecte des fiches terminologiques » : 


— le sujet (« base de données terminologiques ») représente la res- 
source décrite ; 

— le prédicat (« collecte ») indique le type de relation existant entre le 
premier et le dernier composant ; 

— [objet (« fiches terminologiques ») représente une donnée ou une 
autre ressource. 


Chaque triple RDF constitue une déclaration, et, à son tour, ces décla- 
rations peuvent étre représentées comme un graphe, c'est-à-dire avec le 
sujet et l'objet étant les nœuds, et le prédicat reliant les deux (voir l'image 
6.1). Enfin, il existe différents formats pour sérialiser les données RDF 
afin qu'elles puissent étre publiées sur le Web. À titre d'exemple, nous 
listons les éléments suivants et renvoyons le lecteur à (Cimiano et al., 
2020, p. 14-19) pour leur description détaillée : a) RDF/XML'®, b) le 
langage N-Triples'?, c) Turtle'**, d) RDFa'® et, enfin, le plus récent e) 
JSON-LD^*, 


152 https://www.w3.org/TR/rdf-syntax-grammar/. 

153 https://www.w3.org/TR/n-triples/. 

154 https://www.w3.org/TR/2014/REC-turtle-20140225/. 
155 https://www.w3.org/TR/rdfa-primer/. 

156 https://json-ld.org. 
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6.2 De TBX à RDF 


Comme nous l’avons mentionné précédemment, l’impact des données 
liées et les bénéfices découlant de cet écosystème ont conduit de nom- 
breux chercheurs à développer des systèmes de transformation des 
données terminologiques du format XML/TBX au format RDF. Loin 
d'entrer dans les technicités de ces procédés qui dépasseraient le cadre 
de ce travail, nous regroupons ci-dessous quelques études menées 
depuis 2014 constituant l'état de l'art actuel sur le sujet". En outre, il 
faut noter que, pour des raisons strictement chronologiques, les études 
mentionnées ci-dessous se réfèrent soit au format TBX dans sa version 
obsoléte de 2008 soit à sa version actuelle mise à Jour de 2019. 

Le premier effort visant à transformer le format des données ter- 
minologiques est représenté par l'étude de Reineke (2014). Dans cet 
article, l'auteur présente une routine de conversion presque automatisée 
de TBX (2008) à la sérialisation RDF/XML et vice versa. L'objectif 
était de mapper complètement le modèle de données TBX en RDF/ 
XML et de reconvertir le document de fichier de sortie RDF/XML en 
TBX sans perte de données. Dans l’expérience décrite, la proposition de 
conversion s’est avérée efficace tant qu’une feuille de style est préparée 
pour mapper certains éléments, tels que les PID et le type de catégories 
de données. L'auteur lui-même prévoit comme développement futur 
de cette stratégie de transformation une approche entièrement auto- 
matique qui permet une transformation de toutes les instances TBX 
sans intervention de l’utilisateur. Une autre tentative importante de 
conversion TBX-RDF est représentée par l'étude Cimiano et al. (2015). 
Les auteurs proposent une approche de transformation basée sur le 
modèle Ontolex-lemon (McCrae et al., 2011), un modèle RDF déve- 
loppé pour soutenir la publication de ressources lexicales sous forme de 
données liées. La méthodologie de travail a conduit à la mise en place 
d'un service de conversion en ligne TBX2RDF'® et à la publication 
d'une série de bonnes pratiques pour transformer les terminologies de 


157 Pour une présentation plus approfondie des méthodologies de conversion, le lec- 
teur est renvoyé au chapitre 9 de l'ouvrage de Cimiano et al. (2020). 
158 http://tbx2rdf.lider-project.eu/converter/. 
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TBX au format de données liées!®. Comme dans l'étude précédente, le 
convertisseur et les lignes directrices se réfèrent à la version TBX de 
2008. En outre, les auteurs fournissent une démonstration de faisabi- 
lité découlant de ce projet pilote en appliquant la méthodologie à deux 
bases de données terminologiques, à savoir l'/nter-Active Terminology 
for Europe (IATE), convertie de TBX en RDF", et le glossaire Euro- 
pean Migration Network (EMN), converti à partir du format HTML 
vers RDF'*', Cependant, une question qui mérite d’être explorée à pro- 
pos de cette étude est soulevée dans la publication récente de Reineke 
et Romary (2019) dans laquelle les auteurs proposent un systéme de 
conversion impliquant le format TBX et le Simple Knowledge Orga- 
nisation System (SKOS), une recommandation du W3C s'appuyant sur 
le modèle de données RDF'?, Les auteurs soulignent qu'un probléme 
avec la conversion de TBX en Ontolex-Lemon est que : 


OntoLex is essentially a semasiological (word-to-sense) model which, by defi- 
nition, cannot be naturally mapped onto the concept-to-term model of TBX. As 
a consequence, the mapping mainly consists of inserting TBX components into 
various unrelated places in the OntoLex format. 


Pour cette raison, Reineke et Romary (2019) proposent plutót une étude 
de conversion impliquant TBX (de 2019) et SKOS car tous les deux 
fournissent, dans une perspective onomasiologique, des modèles de 
données orientés vers le concept. Cependant, les auteurs soulignent 
que le probléme majeur de mappage réside dans la différence entre 
SKOS et TBX en ce qui concerne la profondeur de la description de 
l'information et la flexibilité de Pinstanciation. Par exemple, la catégo- 
rie de données / définition / est un élément qui dans SKOS est toujours 
positionné au niveau du concept, tandis que dans TBX les défini- 
tions peuvent étre instanciées au niveau du concept ou au niveau de 
la langue. Par conséquent, lors de la mise en correspondance de TBX 


159 https://www.w3.org/2015/09/bpmlod-reports/multilingual-terminologies/. 

160 La version « données liées » de IATE est disponible sur : http://tbx2rdf lider-proj 
ect.eu/data/iate. 

161 La version « données liées » du glossaire EMN est également disponible en ligne : 
http://data.lider-project.eu/emn 

162 https://www.w3.org/TR/skos-primer/. 
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à SKOS, les définitions ne sont pas problématiques, puisque l'instan- 
ciation des informations relatives au concept dans SKOS est restreinte 
à un seul niveau. Dans le scénario de mappage inverse, cependant, la 
décision du niveau où placer la définition ne peut pas être résolue sans 
une désambiguisation (humaine) préalable. En illustrant d'autres cas de 
conversion problématiques, les auteurs concluent que TBX est un for- 
mat d'échange clair ayant une grande flexibilité d'instanciation, alors 
que SKOS fournit un formalisme de description relativement rigide et 
ambigu. Par conséquent, l'intégrité des données n'est pas affectée dans 
la conversion de SKOS à TBX mais un appauvrissement des données 
est généré lors du mappage de TBX à SKOS. Pour conclure ce pano- 
rama, nous évoquons enfin la récente étude de Di Buono et al. (2020) 
dans laquelle les auteurs présentent Terme-à-LLOD (TAL), un nouveau 
paradigme de virtualisation — composé de trois éléments — pour faci- 
liter le processus de transformation des ressources terminologiques en 
RDF. En particulier, l'élément convertisseur gérant la transformation 
automatique est basé sur le service TBX2RDF susmentionné (Cimiano 
et al., 2015) qui permet de mapper les entrées TBX, y compris les dia- 
lectes publics TBX, c'est-à-dire TBX-Core, TBX-Min et TBX-Basic, 
au format RDF, en réutilisant un ensemble de classes et de propriétés 
à partir de vocabulaires de données liés existants (tels que OntoLex- 
Lemon). Le paradigme proposé dans cette étude s'inscrit dans le cadre 
plus large du projet européen Prét-à-LLOD dont l'objectif est de fournir 
des services de TALN basés sur des données linguistiques liées afin 
qu'ils soient durables et puissent étre facilement utilisés et déployés par 
des tiers", 


6.3 Conclusion 


Ce chapitre de conclusion avait pour but d'illustrer au lecteur certaines 
des possibilités auxquelles le terminologue numérique est confronté 


163 Pour plus d'informations sur le projet, veuillez consulter le site Web suivant : 
https://pret-a-llod.github.io. 
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une fois qu'il arrive au format standard d'implémentation TBX. Pour 
répondre à la question posée au début de ce chapitre, le processus de 
FAIRisation des données terminologiques nécessite une mise à jour 
constante afin de tirer le meilleur parti des formats de représentation 
des données les plus efficaces en termes de trouvabilité, d'accessibilité, 
d'interopérabilité et de réutilisabilité. La question de la mesurabilité de 
la FAIRness des données reste un probléme ouvert et l'objet de discus- 
sions actuelles par plusieurs groupes de travail de l'association Euro- 
pean Open Science Cloud dont les efforts sont orientés vers la définition 
de critères d'évaluation efficaces'™. 

Dans cette perspective, le chemin tracé jusqu'à présent du cóté de 
la terminologie numérique n'est en aucun cas à considérer comme un 
point d'arrivée, mais plutót comme un tremplin pour faire avancer des 
réflexions dynamiques futures sur l'organisation optimale des collec- 
tions de données terminologiques. 


164 https://www.eosc.eu/sites/default/files/tfcharters/eosca tffairmetricsanddataqu 
ality_draftcharter_20210614.pdf. 


Annexe À 


Tableau 6.1 — Spécifications des catégories de données en TriMED 


Catégorie de Spécification Description 
données 

Identifiant du Module Trimed 
concept 

PID http://www.datcatinfo.net/datcat/ 
DC-139 

Identifiant conceptIdentifier 

Classification «descrip 

Typologie de contenu chaîne de caractères 

Valeur(s) 

Description Un code utilisé pour identifier une 
fiche terminologique au niveau du 
concept afin de relier des éléments 
physiques pour former une entrée 
de concept virtuelle. 

Explication 

Note L'hypothése de l'ISO 12620 
: 1999 était qu'une spécification 
du concept pouvait consister en 
plusieurs entrées de données 
réelles, d'oü la répartition entre 
Adentifiant du concept /et / 
identifiant/. 

Exemple 

Niveau (TMF) conceptEntry 

Concept Module Trimed 
superordonné 

PID http://www.datcatinfo.net/datcat/ 
DC-495 

Identifiant superordinateConcept 

Classification <descrip> 


Typologie de contenu 
Valeur(s) 


chaîne de caractères 
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Catégorie de Spécification Description 
données 

Description Un concept qui est soit un concept 
générique soit un concept global. 

Explication 

Note 

Exemple 

Niveau (TMF) conceptEntry 

Concept subordonné Module Trimed 

PID http://www.datcatinfo.net/datcat/ 
DC-490 

Identifiant subordinateConcept 

Classification <descrip> 

Typologie de contenu chaîne de caractères 

Valeur(s) 

Description Un concept dans un système 
hiérarchique qui peut être regroupé 
avec au moins un autre concept 
du même niveau pour former un 
concept de rang supérieur. 

Explication 

Note 

Exemple 

Niveau (TMF) conceptEntry 

Relation entre Module Trimed 
concepts 

PID http://datcatinfo.termweb.se/datcat/ 
DC-142 

Identifiant conceptRelation 

Classification <descrip> 

Typologie de contenu chaîne de caractères 

Valeur(s) 

Description Un lien sémantique entre les 
concepts 

Explication Les relations conceptuelles 


constituent la base des systems 
conceptuels. Les types de relation 
conceptuelle peuvent inclure 

: relation générique, relation 
partitive, relation séquentielle, 
relation temporelle, relation 
spatiale, relation associative [liste 
ouverte]. 
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Catégorie de Spécification Description 
données 
Note Dans ce champ, il convient 
d'exprimer la relation entre les 
concepts en indiquant le type de 
relation et en fournissant l'ID des 
concepts liés. 
Exemple 
Niveau (TMF) conceptEntry 
Sphère conceptuelle Module Trimed 
PID http://purl.org/trimed/dcr/dc/dc-9 
Identifiant conceptualSphere 
Classification «descrip 
Typologie de contenu liste déroulante 
Valeur(s) A, B, C, D, E, G, H 
Description Par sphère conceptuelle, nous 
entendons une macroclassification 
qui regroupe des concepts et des 
termes sémantiquement liés. 
Explication Pour la base de données TriMED, 
nous avons identifié 8 sphères 
conceptuelles différentes liées à 
différents champs sémantiques 
pour le domaine médical. 
Ce sont : A - Diagnostic ; B 
- Epidémiologie et prévention ; C - 
Pathologie; D-Spécialitésmédicales; 
E - Pharmacologie ; G - Anatomie ; 
H - Thérapie. 
Note 
Exemple 
Niveau (TMF) conceptEntry 
Identifiant de langue Module Trimed 
PID http://www.datcatinfo.net/datcat/ 
DC-279 
Identifiant languageldent 
Classification <descrip> 
Typologie de contenu chaîne de caractères 
Valeur(s) 
Description Un identifiant unique dans une 


fiche terminologique qui indique 
la langue décrite dans une section 
particulière. 
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Catégorie de Spécification Description 
données 
Explication 
Note 
Exemple EN, FR, IT 
Niveau (TMF) langSec 
Identifiant Module Trimed 
PID http://www.datcatinfo.net/datcat/ 
DC-3894 
Identifiant identifier 
Classification <descrip> 
Typologie de contenu chaîne de caractères 
Valeur(s) 
Description Indication d’un identifiant unique 
(id). 
Explication 
Note Dans la fiche Tri MED, cette 
catégorie de donnée fait référence 
*exclusivement * à la catégorie / 
terme/. 
Exemple 
Niveau (TMF) termSec 
Terme Module Core 
PID http://www.datcatinfo.net/datcat/ 
DC-508 
Identifiant Term 
Classification <term> 
Typologie de contenu chaîne de caractères 
Valeur(s) 
Description Désignation d’un concept dans un 
domaine spécifique. 
Explication Les termes peuvent être des unités 
lexicales simples ou complexes. 
Note 
Exemple terme simple : rougeole ; terme 
complexe : maladie d'Alzheimer 
Niveau (TMF) termSec 
Partie du discours Module Min 
PID http://www.datcatinfo.net/datcat/ 
DC-396 
Identifiant partOfSpeech 
Classification <termNote> 
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Catégorie de 
données 


Spécification 


Description 


Typologie de contenu 
Valeur(s) 


liste déroulante 
nom, verbe, adjectif, adverbe, 
pronom, nom propre, autre 


Description Une catégorie attribuée à un mot 
en fonction de ses propriétés 
grammaticales et sémantiques. 

Explication 

Note 

Exemple 

Niveau (TMF) termSec 

Genre grammatical Module Basic 

PID http://www.datcatinfo.net/datcat/ 
DC-245 

Identifiant grammaticalGender 

Classification <termNote> 


Typologie de contenu 
Valeur(s) 


liste déroulante 
masculin, féminin, neutre, autre 
genre 


Description Une catégorie grammaticale qui 
indique les relations grammaticales 
entre les mots dans les phrases. 

Explication 

Note 

Exemple 

Niveau (TMF) termSec 

Nombre Module Trimed 
grammatical 

PID http://www.datcatinfo.net/datcat/ 
DC-251 

Identifiant grammaticalNumber 

Classification <termNote> 


Typologie de contenu 
Valeur(s) 


Description 


liste déroulante 

singulier, pluriel, collectif ou 
partitif 

Dans de nombreuses langues, 

la distinction grammaticale qui 
indique le nombre d’objets auxquels 
fait référence le terme ou le mot. 
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Catégorie de Spécification Description 
données 
Explication Dans les situations où le singulier 
et le pluriel d’un terme ne 
désignent pas nécessairement le 
même concept, le singulier et le 
pluriel doivent être signalés dans 
des entrées distinctes afin de 
conserver l'orientation conceptuelle 
de la base de données. 
Note 
Exemple 
Niveau (TMF) termSec 
Formes dérivées Module Trimed 
PID http://www.datcatinfo.net/datcat/ 
DC-4611 
Identifiant derivative 
Classification <termNote> 


Typologie de contenu 
Valeur(s) 


chaîne de caractères 


Description Un lexème qui est lié à un autre 
lexème par une règle de dérivation. 

Explication 

Note 

Exemple virologique : forme dérivée de 
virologie 

Niveau (TMF) termSec 

Prononciation Module Trimed 

PID http://www.datcatinfo.net/datcat/ 
DC-407 

Identifiant pronunciation 

Classification <termNote> 


Typologie de contenu 
Valeur(s) 
Description 


Explication 
Note 

Exemple 
Niveau (TMF) 


chaîne de caractères 


Représentation de la manière dont 
un terme ou un mot est prononcé. 


termSec 
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Catégorie de Spécification Description 
données 
Etymologie Module Trimed 
PID http://www.datcatinfo.net/datcat/ 
DC-221 
Identifiant etymology 
Classification <termNote> 
Typologie de contenu chaîne de caractères 
Valeur(s) 
Description Informations sur l’origine d’un mot 
et l’évolution de sa signification. 
Explication 
Note 
Exemple Vaccin : (1801) De vaccine, lui- 
même issu du latin vaccinus (« 
de vache »). Le virus ayant été 
historiquement recueilli dans les 
pustules du pis des vaches puis 
inoculé à l’être humain pour le 
préserver de la variole. 
Niveau (TMF) termSec 
Domaine Module Min 
PID http://www.datcatinfo.net/datcat/ 
DC-489 
Identifiant subjectField 
Classification <descrip> 
Typologie de contenu chaîne de caractères 
Valeur(s) 
Description Un champ de connaissances 
spécialisées. 
Explication 
Note 
Exemple médecine, lois, économie etc. 
Niveau (TMF) conceptEntry 
Sous-domaine Module Trimed 
PID http://purl.org/trimed/dcr/dc/dc-7 
Identifiant subDomain 
Classification «descrip 


Typologie de contenu 
Valeur(s) 


chaine de caractéres 
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Catégorie de Spécification Description 
données 
Description Un sous-domaine de connaissances 
spécialisées. 
Explication 
Note 
Exemple virologie, pathologie, chirurgie 
Niveau (TMF) conceptEntry 
Définition Module Basic 
PID http://www.datcatinfo.net/datcat/ 
DC-168 
Identifiant definition 
Classification <descrip> 


Analyse sémique 


Typologie de contenu 
Valeur(s) 
Description 


Explication 
Note 

Exemple 
Niveau (TMF) 


Module 

PID 

Identifiant 
Classification 
Typologie de contenu 
Valeur(s) 

Description 


Explication 
Note 


chaîne de caractères 


Une représentation d’un concept 
par un énoncé descriptif. 


langSec 


Trimed 
http://purl.org/trimed/dcr/dc/dc-1 
semicAnalysis 

«descrip 

chaine de caractéres 


L'analyse sémique d'une production 
sémiotique, un texte par exemple, 
vise à en dégager les sémes, c'est-à- 
dire les éléments de sens, à définir 
leurs regroupements (isotopies et 
molécules) et à stipuler les relations 
entre ces regroupements (relations 
de présupposition, de comparaison, 
etc., entre isotopies). 
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Catégorie de Spécification Description 
données 

Exemple Pathologie : /étude/ /médecine/ / 
développement/ /cause / symptóme/ 
/maladie/. Maladie : /altération/ 
/santé/ /être vivant/ /signe/ / 
symptóme/ /causes internes/ / 
causes externes/ /évolution/ / 
organisme/. 

Niveau (TMF) langSec 

Contexte Module Basic 

PID http://www.datcatinfo.net/datcat/ 
DC-149 

Identifiant context 

Classification <descrip> 

Typologie de contenu chaîne de caractères 

Valeur(s) 

Description Un texte qui illustre un concept ou 
l'utilisation d'une désignation dans 
son environnement naturel. 

Explication 

Note 

Exemple 

Niveau (TMF) termSec 

Variante Module Trimed 
orthographique 

PID http://www.datcatinfo.net/datcat/ 
DC-330 

Identifiant variant 

Classification <termNote> 


Typologie de contenu 
Valeur(s) 
Description 


Explication 
Note 

Exemple 
Niveau (TMF) 


chaîne de caractères 


Un terme, une appellation ou 
un lexème dans sa présentation 
orthographique alternative. 


acupuncture vs acuponcture 
termSec 
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Catégorie de Spécification Description 
données 
Abréviation Module Trimed 

PID http://www.datcatinfo.net/datcat/ 
DC-1418 

Identifiant abbreviation 

Classification <termNote> 

Typologie de contenu chaîne de caractères 

Valeur(s) 

Description Une forme abrégée résultant de 
l'omission de mots ou de lettres. 

Explication 

Note 

Exemple acdts vs accidents 

Niveau (TMF) termSec 

Expansion Module Trimed 

PID http://www.datcatinfo.net/datcat/ 
DC-321 

Identifiant fullForm 

Classification <termNote> 

Typologie de contenu chaîne de caractères 

Valeur(s) 

Description Terme, appellation ou lexème dans 
sa présentation complète (lorsqu'il 
existe une forme abrégée). 

Explication 

Note 

Exemple acdts vs accidents 

Niveau (TMF) termSec 

Acronyme Module Trimed 

PID http://www.datcatinfo.net/datcat/ 
DC-334 

Identifiant acronym 

Classification <termNote> 


Typologie de contenu 
Valeur(s) 
Description 


chaine de caractéres 


Forme abrégée résultant de la 
combinaison des lettres ou syllabes 
initiales (de chacun ou de certains 
des éléments) de la forme complète 
et prononcée syllabiquement 
comme un mot. 
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Catégorie de Spécification Description 
données 

Explication 

Note 

Exemple CA : canal artériel 

Niveau (TMF) termSec 

Synonyme Module Trimed 

PID http://www.datcatinfo.net/datcat/ 
DC-317 

Identifiant synonym 

Classification <termNote> 

Typologie de contenu chaîne de caractères 

Valeur(s) 

Description Tout terme ou lexème représentant 
le même ou un concept très 
semblable à celui de l’entrée 
principale. 

Explication La synonymie est généralement 
relative, c'està- dire que les 
synonymes couvrent rarement 
tous les aspects du méme concept 
dans tous les cas. Le degré de 
synonymie résultant est traité en 
utilisant les conventions définies 
pour le degré d'équivalence. 

Note 

Exemple affection vs maladie 

Niveau (TMF) termSec 

Hyponyme Module Trimed 

PID http://purl.org/trimed/dcr/dc/dc-5 

Identifiant Hyponym 

Classification <termNote> 


Typologie de contenu 
Valeur(s) 
Description 


Explication 
Note 


chaîne de caractères 


Un mot de signification plus 
spécifique qu'un terme général ou 
supérieur qui lui est applicable. 
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Catégorie de Spécification Description 
données 
Exemple fruit vs pomme 
Niveau (TMF) termSec 
Hyperonyme Module Trimed 
PID http://purl.org/trimed/dcr/dc/dc-6 
Identifiant hypernym 
Classification <termNote> 
Typologie de contenu chaîne de caractères 
Valeur(s) 
Description L'hyperonyme est le terme qui 
désigne le générique. 
Explication 
Note 
Exemple fruit vs pomme 
Niveau (TMF) termSec 
Unité Module Trimed 
phraséologique 
PID http://www.datcatinfo.net/datcat/ 
DC-339 
Identifiant phraseologicalUnit 
Classification <termNote> 


Typologie de contenu 
Valeur(s) 
Description 


Explication 


chaîne de caractères 


Tout groupe de deux ou plus mots 
qui sont fréquemment exprimés 
ensemble et qui se composent de 
plus d’un concept, selon lequel 
les mots individuels fonctionnent 
généralement dans plus d’une 
catégorie grammaticale (partie 
du discours dans la syntaxe d’une 
phrase) [Définition fournie par le 
module TBX Basic]. 

Bien qu’elles soient composées 
de plus d’un mot et qu’elles 
contiennent souvent plus d’un 
concept, les unités phraséologiques 
peuvent être traitées comme 

des unités terminologiques 
individuelles dans les bases de 
données. 
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Catégorie de Spécification Description 
données 

Note 

Exemple 

Niveau (TMF) termSec 

Collocation Module Trimed 

PID http://www.datcatinfo.net/datcat/ 
DC-340 

Identifiant Collocation 

Classification <termNote> 

Typologie de contenu chaîne de caractères 

Valeur(s) 

Description Combinaison récurrente de mots 
caractérisée par la cohésion 
en ce que les composants de la 
collocation doivent coexister 
dans un énoncé ou une série 
d'énoncés, même s'ils ne doivent 
pas nécessairement maintenir une 
proximité immédiate les uns avec 
les autres. 

Explication Les collocations different des 
unités phraséologiques en ce que 
les composants de ces dernières 
doivent généralement apparaitre 
dans une séquence fixe. Les 
combinaisons de mots récurrentes 
qui forment un terme complexe 
(par exemple, adjectif - nom, nom 
+ nom, etc.) et qui représentent 
un concept unique ne sont pas des 
collocations. 

Note 

Exemple (Virus) attraper, contracter, 
inoculer, porter un ; se protéger 
contre les . Un se développe, se 
répand, se propage. 

Niveau (TMF) termSec 
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Catégorie de Spécification Description 
données 
Registre Module Trimed 
PID http://www.datcatinfo.net/datcat/ 
DC-423 
Identifiant Register 
Classification <termNote> 


Typologie de contenu 
Valeur(s) 


liste déroulante 
registre familier, registre 
technique, argot, vulgaire. 


Description Classification indiquant le niveau 
de langue individuellement assigné 
à un terme. 

Explication 

Note 

Exemple 

Niveau (TMF) termSec 

Nom populaire Module Trimed 

PID http://www.datcatinfo.net/datcat/ 
DC-328 

Identifiant commonName 

Classification <termNote> 

Typologie de contenu chaîne de caractères 

Valeur(s) 

Description Synonyme d’un terme scientifique 
international utilisé dans le 
discours général dans une langue 
donnée. 

Explication 

Note 

Exemple première maladie vs rougeole 

Niveau (TMF) termSec 

Nom scientifique Module Trimed 

PID http://www.datcatinfo.net/datcat/ 
DC-3754 

Identifiant scientificName 

Classification <termNote> 

Typologie de contenu chaîne de caractères 

Valeur(s) 

Description Terme technique utilisé par les 


Explication 


experts du domaine. 
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Catégorie de Spécification Description 
données 
Note 
Exemple première maladie vs rougeole 
Niveau (TMF) termSec 
Code ICPC2 Module Trimed 
PID http://purl.org/trimed/dcr/dc/dc-2 
Identifiant icpc2Code 
Classification <xref> 
Typologie de contenu chaîne de caractères 
Valeur(s) 
Description URL du terme correspondant dans 
la ressource ICP2. 
Explication 
Note 
Exemple 
Niveau (TMF) termSec 
Code ICD10 Module Trimed 
PID http://purl.org/trimed/dcr/dc/dc-3 
Identifiant icd10Code 
Classification <xref> 
Typologie de contenu chaîne de caractères 
Valeur(s) 
Description URL du terme correspondant dans 
la ressource ICD10. 
Explication 
Note 
Exemple 
Niveau (TMF) termSec 
Terme SNOMED Module Trimed 
CT 
PID http://purl.org/trimed/dcr/dc/dc-4 
Identifiant Snomed 
Classification <xref> 
Typologie de contenu chaîne de caractères 
Valeur(s) 
Description URL du terme correspondant dans 
la ressource SNOMED. 
Explication 
Note 


Suite à la page suivante 


182 


Tableau 6.1 suite de la page précédente 


Annexe À 


Catégorie de Spécification Description 
données 
Exemple 
Niveau (TMF) termSec 
Terme MeSh Module Trimed 
PID http://purl.org/trimed/dcr/dc/dc-8 
Identifiant Mesh 
Classification <xref> 
Typologie de contenu chaîne de caractères 
Valeur(s) 
Description URL du terme correspondant dans 
la ressource MESH. 
Explication 
Note 
Exemple 
Niveau (TMF) termSec 
Source Module Basic 
PID http://www.datcatinfo.net/datcat/ 
DC-471 
Identifiant Source 
Classification <descrip> 


Référence croisée 


Typologie de contenu 
Valeur(s) 
Description 


Explication 
Note 


Exemple 
Niveau (TMF) 


Module 
PID 


Identifiant 
Classification 
Typologie de contenu 
Valeur(s) 


chaîne de caractères 


Une citation complète des 
informations bibliographiques 
relatives à un document ou à une 
autre ressource. 


La catégorie de donnée /source/ 
fait référence à la /définition/ au 
niveau de la section de langue et au 
/contexte/ au niveau de la section 
de terme. 


langSec, termSec 


Basic 
http://www.datcatinfo.net/datcat/ 
DC-164 

CrossReference 

<ref> 

chaîne de caractères 
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Catégorie de Spécification Description 
données 
Description Champ utilisé pour diriger 
l'utilisateur vers une autre 
information associée ; par exemple, 
une autre fiche terminologique. 
Explication 
Note La catégorie de donnée /référence 
croisée/ doit étre placée à la fois au 
niveau du concept et au niveau du 
terme : cela permettra d'indiquer 
les associations entre différents 
concepts ou termes dans la base de 
données. 
Exemple 
Niveau (TMF) conceptEntry, termSec 
Référence croisée Module Basic 
externe 
PID http://www.datcatinfo.net/datcat/ 
DC-226 
Identifiant externalCrossReference 
Classification <xref> 


Responsabilité 


Typologie de contenu 
Valeur(s) 
Description 


Explication 
Note 


Exemple 
Niveau (TMF) 


Module 
PID 


Identifiant 
Classification 
Typologie de contenu 
Valeur(s) 


chaîne de caractères 


URL ou autre URI vers une 
ressource externe à la base de 
données ou au fichier d'échange. 


La catégorie de donnée /référence 
croisée externe/ fait référence à la / 
définition/ et au /context/. 


langSec, termSec 


Basic 
http://www.datcatinfo.net/datcat/ 
DC-451 

Responsibility 

<transacGrp> 

chaîne de caractères 
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Catégorie de Spécification Description 
données 
Description Un identifiant attribué à l’individu 
associé à la transaction concernant 
la gestion de la base de données. 
Explication 
Note La catégorie de donnée / 
responsabilité/ devrait être placée 
à la fois au niveau du concept et au 
niveau du terme : cela permettra 
de se référer à la personne qui a 
formulé la fiche terminologique (au 
niveau du concept) et à la personne 
qui a compilé la section du terme. 
Exemple 
Niveau (TMF) conceptEntry, termSec 
Type de transaction Module Basic 
PID http://www.datcatinfo.net/datcat/ 
DC-1689 
Identifiant Transaction 
Classification <transacGrp> 
Typologie de contenu liste déroulante 
Valeur(s) origine, modification 
Description L'une des étapes de la formulation, 
de l'approbation et de l'utilisation 
d'une entrée terminologique. 
Explication 
Note Dans la fiche TriMED, la catégorie 
de donnée /type de transaction/ 
doit étre placée à la fois au 
niveau du concept et au niveau du 
terme : cela permet d'identifier 
le type de transaction (origine 
ou modification) effectuée par 
l'utilisateur. 
Exemple 
Niveau (TMF) conceptEntry, termSec 
Date Module Core 
PID http://www.datcatinfo.net/datcat/ 
DC-4335 
Identifiant date 
Classification <date> 


Typologie de contenu 
Valeur(s) 


chaine de caractéres 
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Catégorie de 
données 


Spécification 


Description 


Description 


Explication 


Note 


Exemple 
Niveau (TMF) 


Moment auquel une transaction ou 
un événement a lieu. 

Selon ISO 8601, la disposition 
AAAAMM- JJ, avec possibilité 
d'extension à la date et à l'heure, 
par exemple AAA A-MM-JJ hh 

: mm : ss, doit étre utilisée pour 
représenter les dates. 

Dans la fiche de Tri- MED, il 
devrait y avoir une date se référant 
au concept et une date se référant 
au terme : c'est-à-dire qu'il faut 
déclarer la date de création de la 
fiche terminologique au niveau 

du concept et la date d'entrée des 
données dans la section consacrée 
au terme. 

2020-02-18 

conceptEntry, termSec 


Note 


Module 
PID 


Identifiant 
Classification 
Typologie de contenu 
Valeur(s) 

Description 


Explication 


Note 


Exemple 
Niveau (TMF) 


Core 
http://www.datcatinfo.net/datcat/ 
DC-382 

Note 

<note> 

chaîne de caractères 


Une déclaration qui fournit des 
informations supplémentaires 
sur toute partie d’une entrée de la 
ressource terminologique. 


Dans la fiche de Tri- MED, la 
catégorie de donnée /note/ doit 
étre placée à chaque niveau du 
métamodèle TMF (concept, 
langue, terme). Dans la section 
langue, la /note/ fait référence aux 
commentaires sur la définition. 


conceptEntry, langSec, termSec 


Annexe B 


Data Category Module Definition 


Name: Trimed 

Namespace: http://shiny.dei.unipd.it/TriMED/data_category_reposi- 
tory/ 

Description: The Trimed Module is a data category module collecting 
data categories selected from 1) DatCatInfo (http://www.datcatinfo.net/ 
#/) and 2) TriMED Data Category Repository 

Data Categories: 


Image 6.2 — Formalisme complet du module 7rimed 


Name PID Classification Value(s) Level 
(TMF) 
superordinateConcept http://www. «descrip» conceptEntry 


datcatinfo.net/ 
datcat/DC-495 
subordinateConcept http://www. <descrip> conceptEntry 
datcatinfo.net/ 
datcat/DC-490 


subDomain http://purl.org/ <descrip> conceptEntry 
trimed/dcr/dc/ 
dc-7 

conceptIdentifier http://www. «descrip» conceptEntry 


datcatinfo.net/ 
datcat/DC-139 

languageldent http://www. «descrip» langSec 
datcatinfo.net/ 
datcat/DC-279 

identifier http://www. «descrip» termSec 
datcatinfo.net/ 
datcat/DC-3894 
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Name 


PID 


Classification Value(s) 


Level 
(TMF) 


grammaticalNumber 


derivative 


pronunciation 


etymology 


variant 


abbreviation 


fullForm 


acronym 


semicAnalysis 


synonym 


hyponym 


hypernym 


phraseologicalUnit 


http://www. 
datcatinfo.net/ 
datcat/DC-251 
http://www. 
datcatinfo.net/ 
datcat/DC-4611 
http://www. 
datcatinfo.net/ 
datcat/DC-407 
http://www. 
datcatinfo.net/ 
datcat/DC-221 
http://www. 
datcatinfo.net/ 
datcat/DC-330 
http://www. 
datcatinfo.net/ 
datcat/DC-1418 
http://www. 
datcatinfo.net/ 
datcat/DC-321 
http://www. 
datcatinfo.net/ 
datcat/DC-334 
http://purl.org/ 
trimed/dcr/dc/ 
dc-1 
http://www. 
datcatinfo.net/ 
datcat/DC-317 
http://purl.org/ 
trimed/dcr/dc/ 
dc-5 
http://purl.org/ 
trimed/dcr/dc/ 
dc-6 
http://www. 
datcatinfo.net/ 
datcat/DC-339 


<termNote> 


<termNote> 


<termNote> 


<termNote> 


<termNote> 


<termNote> 


<termNote> 


<termNote> 


<descrip> 


<termNote> 


<termNote> 


<termNote> 


<termNote> 


singular, plural, 
dual, mass, 
otherNumber 


termSec 


termSec 


termSec 


termSec 


termSec 


termSec 


termSec 


termSec 


langSec 


termSec 


termSec 


termSec 


termSec 


Annexe B 


Image 6.2 suite de la page précédente 


189 


Name 


PID 


Classification Value(s) 


Level 
(TMF) 


collocation 


register 


commonName 


scientificName 


icpc2Code 


icdl0Code 


snomed 


mesh 


conceptRelation 


conceptualSphere 


http://www. 
datcatinfo.net/ 
datcat/DC-340 
http://www. 
datcatinfo.net/ 
datcat/DC-423 


http://www. 
datcatinfo.net/ 
datcat/DC-328 
http://www. 
datcatinfo.net/ 
datcat/DC-3754 
http://purl.org/ 
trimed/dcr/dc/ 
dc-2 
http://purl.org/ 
trimed/dcr/dc/ 
dc-3 
http://purl.org/ 
trimed/dcr/dc/ 
dc-4 
http://purl.org/ 
trimed/dcr/dc/ 
dc-8 

http:// 
datcatinfo. 
termweb.se/ 
datcat/DC-142 
http://purl.org/ 
trimed/dcr/dc/ 
dc-9 


<termNote> 


<termNote>  colloquialRegister, 
neutralRegister, 
technicalRegister, 
in-houseRegister, 
benchlevelRegister, 
slangRegister, 
vulgarRegister 
<termNote> 


<termNote> 


<xref> 


<xref> 


<xref> 


<xref> 


<descrip> 


<descrip> A,B,C,D, E, F, 


G,H 


termSec 


termSec 


termSec 


termSec 


termSec 


termSec 


termSec 


termSec 


conceptEntry 


conceptEntry 
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